[汽車之家 資訊] 日前,理想汽車董事長兼CEO李想開啟第二季AI Talk,描述了理想汽車關(guān)于智能駕駛輔助方面接下來的發(fā)展方向,,并重點分享了對于人工智能的最新思考,,VLA司機大模型的作用、訓練方法和挑戰(zhàn),,以及對于創(chuàng)業(yè)和個人成長的見解,。
李想將AI工具分為三個層級,分別是信息工具,、輔助工具和生產(chǎn)工具,。目前,大多數(shù)人將AI作為信息工具使用,,但信息工具常伴隨大量無效信息,、無效結(jié)果和無效結(jié)論,僅具參考價值,。成為輔助工具后,,AI可以提升效率,例如現(xiàn)在的輔助駕駛,,但仍需人類參與,。未來,AI發(fā)展為生產(chǎn)工具后,,將能獨立完成專業(yè)任務,,顯著提升效率與質(zhì)量。李想表示:“判斷Agent(智能體)是否真正智能,,關(guān)鍵在于它是否成為生產(chǎn)工具,。只有當人工智能變成生產(chǎn)工具,才是其真正爆發(fā)的時刻,。就像人類會雇傭司機,,人工智能技術(shù)最終也會承擔類似職責,,成為真正的生產(chǎn)工具�,!�
● VLA的實現(xiàn)不是突變的過程,,是進化的過程
目前的L2、L2+組合駕駛輔助仍屬于輔助工具階段,,而VLA(Vision-Language-Action Model,,視覺語言行動模型)能夠讓AI真正成為司機,成為交通領(lǐng)域的專業(yè)生產(chǎn)工具,。對理想汽車而言,, 未來的VLA就是一個像人類司機一樣工作的司機大模型。
VLA的實現(xiàn)不是一個突變的過程,,是進化的過程,,經(jīng)歷了三個階段,對應理想汽車輔助駕駛的昨天,、今天和明天,。第一階段,理想汽車自2021年起自研依賴規(guī)則算法和高精地圖的輔助駕駛,,類似“昆蟲動物智能”,。第二階段,理想汽車自2023年起研究,,并于2024年正式推送的端到端+VLM(Vision Language Model,,視覺語言模型)輔助駕駛,接近“哺乳動物智能”,。
端到端模型在處理復雜問題時存在局限,,雖可借助VLM視覺語言模型輔助,但VLM使用開源模型,,使其在交通領(lǐng)域的能力有限,。同時端到端模型也難以與人類溝通。為了解決這些問題并提升用戶的智能體驗,,理想汽車自2024年起開展VLA研究,,并在多項頂級學術(shù)會議上發(fā)表論文,夯實了理論基礎(chǔ),。
在端到端的基礎(chǔ)上,,到第三階段,VLA將開啟“人類智能”的階段,。它能通過3D和2D視覺的組合,,完整地看到物理世界,而不像VLM僅能解析2D圖像。同時,,VLA擁有完整的腦系統(tǒng),,具備語言、CoT(Chain of Thought,,思維鏈)推理能力,,既能看,也能理解并真正執(zhí)行行動,,符合人類的運作方式,。
● VLA訓練過程模擬人類學習,對齊人類價值觀
VLA的訓練分為預訓練,、后訓練和強化訓練三個環(huán)節(jié),,類似于人類學習駕駛技能的過程。預訓練相當于人類學習物理世界和交通領(lǐng)域的常識,,通過大量高清2D和3D Vision(視覺)數(shù)據(jù),、交通相關(guān)的Language(語言)語料,以及與物理世界相關(guān)的VL(Vision-Language,,視覺和語言)聯(lián)合數(shù)據(jù),,訓練出云端的VL基座模型,并通過蒸餾轉(zhuǎn)化為在車端高效運行的端側(cè)模型,。
后訓練相當于人類去駕校學習開車的過程。隨著Action(動作)數(shù)據(jù)的加入——即對周圍環(huán)境和自車駕駛行為的編碼,,VL基座變?yōu)閂LA司機大模型,。得益于短鏈條的CoT,以及Diffusion擴散模型對于他車軌跡和環(huán)境的預測,,VLA具備實時性的特點,,實現(xiàn)了在復雜交通環(huán)境中的博弈能力。
強化訓練類似于人類在社會中實際開車練習,,目標是讓VLA司機大模型更加安全,、舒適,對齊人類價值觀,,甚至超越人類駕駛水平,。強化訓練包含兩部分:一是通過RLHF(Reinforcement Learning from Human Feedback,基于人類反饋的強化學習)完成安全對齊,,使模型遵守交通規(guī)則,,貼合中國用戶的駕駛習慣;二是將純強化學習模型放入世界模型中訓練,,提升舒適性,,避免碰撞事故,遵守交通規(guī)則,。經(jīng)過預訓練,、后訓練和強化訓練后,,VLA司機大模型即可部署至車端運行。
VLA司機大模型以“司機Agent(智能體)”的產(chǎn)品形態(tài)呈現(xiàn),,用戶可通過自然語言與司機Agent溝通,,跟人類司機怎么說,就跟司機Agent怎么說,。簡單通用的短指令由端側(cè)的VLA直接處理,,復雜指令則先由云端的VL基座模型解析,再交由VLA處理,。
● 超級對齊確保AI決策安全,,世界模型破解AI黑盒難題
除了提升專業(yè)能力,VLA司機大模型還需解決安全性和模型黑盒的問題,。
模型能力越強,,越需要職業(yè)性約束,以確保能力下限,。為了保障VLA司機大模型能夠?qū)崿F(xiàn)職業(yè)司機般的安全和舒適,,避免學習加塞等違規(guī)行為,理想汽車在強化訓練環(huán)節(jié)投入大量資源,,并于2024年底組建超過100人的超級對齊團隊,,相當于為司機Agent注入職業(yè)素養(yǎng)。
為解決模型的黑盒問題,,理想汽車結(jié)合重建和生成兩種路徑,,打造了真實、符合物理世界規(guī)律的世界模型,,覆蓋所有交通參與者和要素,。基于世界模型的仿真能力,,VLA可以在世界模型中低成本,、準確地驗證現(xiàn)實問題,提升解決問題的效率,,有效應對模型黑盒帶來的挑戰(zhàn),。
判斷司機Agent是否是個好司機,有三個關(guān)鍵標準:專業(yè)能力,、職業(yè)能力和構(gòu)建信任的能力,。VLA司機大模型提升了專業(yè)能力,超級對齊增強了職業(yè)能力,,VLA通過理解自然語言,、具備記憶能力提升了構(gòu)建信任的能力。
● 人工智能時代,扎實的基本功比走捷徑重要
理想汽車實現(xiàn)技術(shù)快速躍遷的背后,,是從研究,、研發(fā)到能力表達,再到將能力變成業(yè)務價值的基本功積累,。研究是關(guān)鍵,,研究突破后,研發(fā)的效率會大幅提升,,且注重價值轉(zhuǎn)化,,最終實現(xiàn)業(yè)務落地。
理想汽車堅持自研,,通過技術(shù)賦能用戶價值,。例如,在輔助駕駛方面,,由于英偉達Orin-X芯片無法直接運行語言模型,,端到端+VLM的輔助駕駛方案對部分企業(yè)來說仍具挑戰(zhàn)。理想汽車依托自有編譯團隊,,自研底層推理引擎,,使芯片可通過INT4(4比特整型)量化的方式運行VLM。同時,,憑借芯片,、控制器設(shè)計和自研汽車操作系統(tǒng)等綜合能力,理想汽車實現(xiàn)了讓雙Orin-X芯片和Thor-U芯片運行同等規(guī)模的VLA司機大模型,。李想表示,,大型企業(yè)的基本功和能力永遠無法被逾越。
得益于DeepSeek的開源,,理想汽車在VLA司機大模型的語言能力研發(fā)上提速顯著,節(jié)省了近9個月的時間和數(shù)億元成本,。盡管如此,,理想汽車仍選擇加大投入,在基座模型上投入超預期3倍的訓練卡,,專注打造適配多場景的自研模型,。李想表示:“我們可以站在巨人的肩膀上,但它只是其中的一部分,�,!痹谑芤骈_源的同時,理想汽車也選擇開源自研的汽車操作系統(tǒng)——理想星環(huán)OS,,回饋社會,。
● 成長帶來能量,在痛苦中保持正能量
今年7月,理想汽車將迎來成立十周年,。李想表示,,創(chuàng)業(yè)路上苦多于甜,他選擇保留那些有價值的美好片段,,用來激勵自己保持正能量,。“創(chuàng)業(yè)確實不容易,,但是沒必要苦哈哈的,。苦和甜是一個硬幣的正反面,,取決于看哪一面,。”他將企業(yè)遭遇的打擊視為必須面對的挑戰(zhàn),,也正是這些挑戰(zhàn),,賦予了理想汽車更多的能力。也正因這份積極樂觀的創(chuàng)業(yè)心態(tài),,理想汽車才能快速成長為千億營收規(guī)模,、百萬交付量的新勢力企業(yè)。
談及如何成為更有能量的人,,李想認為,,關(guān)鍵在于關(guān)注自我,接受自身的優(yōu)點和不足,,并用成長替代改變——成長意味著增強能力,。除此之外,李想強調(diào)親密關(guān)系同樣重要,,關(guān)注他人的成長也能帶來能量,,家人和同事能夠和他形成互補,相互支撐,�,!拔倚枰胰撕屯律踔脸^了他們需要我,首先是我需要他們,,然后才是他們需要我,,我們在一起能夠形成非常強的腦力和心力�,!崩钕氡硎�,。
回顧幾次創(chuàng)業(yè)經(jīng)歷,李想表示,,從高中創(chuàng)辦個人網(wǎng)站至今,,自己的思維方式?jīng)]有什么變化:遇到問題解決問題,,解決別人不愿解決的難題,解決用戶的痛點,,不斷向他人學習,。不同的是,如今面臨的問題更復雜,、服務的用戶群體更多,、公司規(guī)模和組織也更龐大�,!皫状蝿�(chuàng)業(yè)一路走來,,最難時有人相助,遇坑也能迅速爬出,,一幫人齊心協(xié)力變得更好,,這是種幸運,也沒什么可后悔的,�,!�
面對AI的發(fā)展,李想認為,,在AI面前所有的人性都應被保留,,無論好壞,因為一切人性都是文化,、生命,、性格、能力的特質(zhì),,也是人類真正的生命力所在,。
從使用增程電動和5C超充技術(shù)解決電池成本高、充電難,、充電慢的問題,,到自研汽車操作系統(tǒng)攻克傳統(tǒng)汽車操作系統(tǒng)性能差、開發(fā)緩慢,、芯片匹配周期長等挑戰(zhàn),,理想汽車始終以技術(shù)創(chuàng)新解決行業(yè)無法解決的問題。自研VLA時,,理想汽車更是踏入了人工智能的無人區(qū)。當前,,輔助駕駛走到了新的十字路口上,,理想汽車將不斷挑戰(zhàn)成長的極限,持續(xù)為行業(yè)和用戶創(chuàng)造價值,。
● Agent(智能體)應該怎么定價,?
李想表示,,我們雇用人類費用的幾分之一,至于幾分之一最后還是看把成本都算出來以后,,我覺得比如說我一個月,,我雇一個司機,1萬塊錢,,我是否愿意,?2千到3千雇傭一個司機。我覺得這個其實是一個,,可能是一個比較重要的一個判斷,,當然它也會帶來其他商業(yè)模式的不同。比如說你花2千到3千塊錢雇傭一個司機,,那可能你對車而言,,你可能也不需要付保險費了,保險費也包在這里邊了,,保險的費用就財產(chǎn)的保險,,這個財產(chǎn)險的費用也包含在里邊了。也可能一定的這種,,因為它可能會自動去充電,,可能一定的充電的金額,對應一定里程的充電金額也放在里面了,。所以可能到最后算下來,,還可能是個更劃算的一個事情。
● 以下是實錄內(nèi)容:
1. 距離上次的AI talk過去了130天,,你最大的進步是什么,?你有成為一個更智能的李想嗎?
我覺得這130天我覺得我更高興看到的是整個中國的進步,,對吧,?我覺得包括DeepSeek,包括千問在內(nèi)的,,可以讓中國無論是基座模型,,還是reasoning推理模型,還是后邊的多模態(tài),,已經(jīng)跟美國的距離基本上拉近了,,或者基本上在一個水平線上了。而且中國的企業(yè)做出來這些模型效率也更高,,無論是在預訓練上,,在訓練的層面,還是在后邊的整個推理層面,,我們做了很多的深層的工程的改造,。我覺得也讓整個的中國的人工智能領(lǐng)域更有信心,。也包含后邊我看到一些比較驚喜的,在Agent(智能體)上面的一些突破,,無論是Manus還是這個還是Genspark,,我覺得其實這些方面做的都非常的好。
嗯,,所以我說這個其實是非常驚喜的,,那如果從我們自己個人而言,這也樹立了我們把 AI 做得更好的這個信心,。今天大家在講語言模型,,但我還是認為語言模型只是世界的一個重要的組成部分,但并不是全部,,我們要想去理解物理世界,,我們要想讓一個終端或者一個機器人能夠在物理世界和數(shù)字世界里運行,其實要做的工作還有非常多,。我覺得這個其實是讓我們也更加堅信,,這條路走下去是對的。
2. 那你有變成一個更智能的李想嗎,?
我覺得沒有那么大的變化,。如果從實際的角度而言,人工智能發(fā)展這么好,,但我每天工作時間并沒有減少,,還是在增加。
3. 是啊,,這是為什么,?
大部分人在使用,或者說我見到的幾乎所有人,,其實還是在把它當成一個信息工具來使用,。那如果是信息工具的話,其實AI作為一個信息工具不是完美的,,因為它最后一定要給你個next token(下個詞元),,一定要給你一個結(jié)果。而且大家今天使用的時候會先點上聯(lián)網(wǎng)搜索,,先去通過Rag(檢索增強生成)聯(lián)網(wǎng)搜索一些索引信息,。但往往其實索引的信息源,就已經(jīng)失真和不準確了,,所以最后推理的過程,,(雖然)很認真地在做推理,但是你明顯都看到這個過程和結(jié)果已經(jīng)開始有問題了,。所以某種程度而言,,如果我們不對這套機制進行一個改造的話,它某種程度仍然是在做熵增,,在增加大量的無效信息,、無效結(jié)果、無效結(jié)論,。
我覺得這是一個很大的挑戰(zhàn),,我就在思考一個問題,還是要站在真正用戶價值的角度,,如果大家在拼命地使用AI,,大家在為AI做投資,但是我的工作時長并沒有減少,,我的工作結(jié)果也沒有變好,,那這個問題到底在哪里?所以這也是過去幾個月我跟很多人在聊,,在思考,,我們內(nèi)部在討論非常多的一個問題。我覺得很多時候不要把東西纏繞到一起,,我們可以先做一個分類,,因為人類歷史上也會有類似這些的分類。今天,,通過一個對話的方式,,無論文本多么長,其實它都是個信息工具,,我覺得信息工具對大家而言更重要的其實是參考作用,。
再往下,AI變好了以后,,它會變成一些輔助工具,。比如我們今天做的輔助駕駛,大家在車上用人工智能的語音方式來進行導航,,來查找美團,,來調(diào)取音樂,它會讓我們的效率更高,,但它仍然離不開我們,。所以這時候,這種角色比較像什么呢,?它確實比原來的使用體驗會更好了,,但它是個輔助的一個工具。
我覺得什么時候才能真正改變我們的工作的成果以及減少我們的工作時長,,我覺得它必須變成生產(chǎn)工具,。我自己認為Agent(智能體)最重要的評判條件是它是否是個生產(chǎn)工具,、它是否真正能替代我去完成專業(yè)的工作、它是否真的在產(chǎn)生有效的生產(chǎn)力,、它是否真的在解決我工作中那最重要的8小時的時間,。對,我覺得這個是我接下來對Agent(智能體)最重要的衡量,,也是我覺得Agent(智能體)的意義所在,。
4. 這是你對于工具的三個分級,信息工具,、輔助工具和生產(chǎn)工具,。
對,我覺得人工智能變成生產(chǎn)工具,,然后才是真正人工智能爆發(fā)的時刻,。
5. 所以最過去130天其實最大的變化是外部的環(huán)境。
對,,國際環(huán)境在發(fā)生重大的變化,。然后技術(shù)也在發(fā)生變化,但技術(shù)最大的變化還是中國在人工智能方面帶來的變化,。美國的變化反而沒那么大,。
6. 你從DeepSeek身上學到了什么?
我覺得DeepSeek我能學到最好的一個方式是DeepSeek運用了人類的最佳實踐,,它極簡的運用了人的最佳實踐,。比如說其實他在做DeepSeek V3的時候,其實V3是一個MoE(混合專家模型)的,,671B的一個模型,。我覺得MoE(混合專家模型)是個非常好的架構(gòu)。它相當于把一堆專家組合在一起,,然后每一個是一個專家能力,。它做這個專家能力是怎么來構(gòu)建的?其實挺明顯的,,就當我們想去構(gòu)建能力的時候,,DeepSeek給你展示了一個最佳實踐,第一步一定要先搞研究,。我覺得這是非常重要的,。就是任何的時候,當我們想去改變能力和提升能力的時候,,第一步一定是搞研究,,搞完研究以后其實才搞研發(fā)。然后搞完研發(fā)以后,我覺得第三步是要把能力表達出來,。然后第四步是能力變成業(yè)務的價值,。
這四個步驟是個極簡的人類最佳實踐,但我們經(jīng)常做著就忘掉了,,看到什么東西就直接去啟動研發(fā),,而沒有去搞研究。我們自己也很受益,,其實無論我們是在端到端和VLM(視覺語言模型)上,還是今天做VLA(視覺語言行動模型)的時候,,我們的研究團隊其實表現(xiàn)得非常好,。
包括你可以看國外的像李飛飛,其實她在引用輔助駕駛的時候,,也經(jīng)常會引用我們的關(guān)于輔助駕駛方面的這些研究的論文,。那我覺得這個其實挺重要。那研究跑通了以后,,研發(fā)效率會變得非常的高,。但是研發(fā)又非常在意價值,他能夠把價值表達出來,,然后變成業(yè)務,,那我覺得這是一個很重要的過程。
7. 我很好奇在就是DeepSeek全球爆火的時候,,你這個春節(jié)是怎么過的,?
春節(jié)過得挺好的,還帶著孩子去看哪吒2,。那其實我印象應該是1月20號然后DeepSeek R1上線的,,然后到后邊開源,我們也在對DeepSeek做了很多的這個整個的研究,,就是我們也在研究DeepSeek很多東西為什么做得好,。包括整個的訓練和推理的效率,也包括這些一個MoE(混合專家模型)模型部署上去對內(nèi)存占用的這些挑戰(zhàn),。
其實我們自己已經(jīng)開始在芯片上來寫FP8(8 位浮點數(shù)格式)的整個的工程的優(yōu)化了,。因為我們自己有編譯團隊。那比較有意思的一點是,,我沒有上來敢跟模型團隊直接聊,,我先跟謝炎(理想汽車CTO)聊了一下,我說我們本身要做VLA(視覺語言行動模型),,然后VLA一個很重要的計劃是到今年的這個9月份的時候能夠做一個非常好的語言模型出來,,才能再往下去訓練VLA(視覺語言行動模型)。
但是今天看的話說我們自己預測的我們到9月份做的模型,能力是否比DeepSeek V3加R1更強,?我說至少我聽到你們說的東西,,我說不如那個強,對吧,?而且它開源開得如此的徹底,。然后我們是否應該基于它的開源,去做我們的 VLA(視覺語言行動模型)的L(language 語言)的部分,,并且我們基于這個L(language 語言)的部分,,比如說其實我在理想同學用的話可能就是個VL(視覺和語言),它沒有A(action 行動),,對吧,?就把vision(視覺)和language(語言)其實放在一起,包括要做成端到端的,,然后語音的這樣的一個方式,。
我覺得我們原來本來應該是9月份以后才能做這些工作,我們是否應該站在巨人的肩膀上就去做了,?然后謝炎(理想汽車CTO)說肯定應該這么做,。
那時候我們比較擔心陳偉(理想汽車基座模型負責人)會怎么想,對吧,?因為這個壓力是挺大的,。然后我們發(fā)現(xiàn)陳偉比我們還堅決。他說這個會加速我們往下一步的這個工作,,我們應該以這個為基礎(chǔ),,加速VLA(視覺語言行動模型),加速端到端的多模態(tài)這樣的一個進展,,然后研究團隊也都在研究我們?nèi)绾卧谛酒弦才艿酵瑯拥挠柧毢屯评淼男�,,大家都在同步地進行工作。
我跟謝炎(理想汽車CTO)打的最多的電話,,我們還有一個專門的人工智能的戰(zhàn)略小組,,我們就在里邊不停地聊,發(fā)現(xiàn)大家并不糾結(jié),,因為我們知道我們家企業(yè)的基因,,還是要為用戶推出最好的產(chǎn)品和服務。
整個擁抱DeepSeek的這個過程比我們想象得要快,,所以這是今天其實我們VLA(視覺語言行動模型)推出的速度也會比原來的預期的要快,。
8. 你怎么看梁文鋒(DeepSeek創(chuàng)始人)啊,?你覺得他是怎么找到你說的這個人類最佳實踐呢,?
我只跟他聊過一次,是去年的9月份,印象特別深,,應該是ChatGPT的o1發(fā)布前的幾天,。我自己個人感覺,兩個特點,,第一他是個特別自律的人,。明顯你跟他溝通的過程中其實能夠看到,第二個是我個人認為其實他是會在全世界范圍之內(nèi)去研究和學習最佳實踐和最好的方法論的這樣一個人,。
9. 怎么理解自律,?
我覺得自律的最大特點就是能夠堅守這些你相信的東西,能夠堅守這些最佳實踐,,能跟人性的一些懶惰,、走捷徑,這些方面做對抗,。
我覺得讓我們更加敬佩他,包括我們的開源,。我覺得DeepSeek的出現(xiàn)對我們加速做VLA(視覺語言行動模型)是巨大的幫助,。過去我們打算要到今年年底才能做出一個像樣的,能夠滿足我們需求的語言模型,,但DeepSeek一開源,,我們就加速了9個月的時間,所以給我們帶來了巨大的收益和幫助,,我們受到了那么大的幫助,,所以我們在想我們能對社會做點什么貢獻,所以我們就把自研的整車操作系統(tǒng)理想星環(huán)OS給開源了,。沒有大家想的那么復雜,,我自己內(nèi)心,包括謝炎(理想汽車CTO)的內(nèi)心就是DeepSeek給我們帶來那么大的幫助,,我們應該給對社會貢獻點什么,。不讓行業(yè)那么卷。說白了純粹是感謝DeepSeek,。
10. 自研了四年嗎,?
對,那真的是做得好,,明顯得好,。如果你做的不好的東西出去開源不就丟人嗎?
11. 所以這是一種情懷,,而不是一個公司戰(zhàn)略,,對嗎?
不是公司戰(zhàn)略。
12. 這很有意思,。 DeepSeek感覺帶來了更多的善良和善意,。
是的。
13. 你有沒有想過DeepSeek為什么不是你做的,?
我覺得我只能做最好的自己,。我的人生經(jīng)歷,我進入了汽車行業(yè),,我做汽車的網(wǎng)站,,我其實一直在自己的長板的延長線上繼續(xù)來做。從最開始做個人網(wǎng)站,,到做產(chǎn)品的IT網(wǎng)站,,到做汽車網(wǎng)站,最后希望能夠改變汽車行業(yè),,推出更好的產(chǎn)品,,汽車疊加下一代的信息技術(shù)。這個其實是我的一個延長線,。他(梁文鋒 DeepSeek創(chuàng)始人)的延長線其實就是從人工智能開始的,,他在浙大學的就是人工智能,那是他的延長線,,本身我也相信,,量化交易的公司,對于整個模型的能力,,對模型的理解,,對于本身工程的能力,不會比任何互聯(lián)網(wǎng)公司差,,甚至可能還要更強,。
14. 在春節(jié)之后很多人都來問我這個問題,就說理想還做基座模型,。既然都有DeepSeek,,為什么還要做基座模型?
因為我們的業(yè)務,,意味著其實我們并不是說只是做好語言模型就夠了,,我們車上其實要有對話,然后又有多模態(tài),,那這個仍然其實需要我們自己去訓練一個根據(jù)我們自己需要的一個基座模型,,包括我要去做VLA(視覺語言行動模型),因為這個VLA里邊,,哪怕V(vision 視覺)和L(language 語言)都和正常的是不一樣的,,就是這個我需要3D的vision(視覺),,還有高清的2D的vision(視覺)的,然后token(詞元)要用預訓練,,必須得涉及到更專業(yè)的車領(lǐng)域的語義語料,,交通領(lǐng)域的語義語料,我們面向的家庭用戶的語義語料,,然后來做訓練,,還有也包含其實還有很多的時候,一個重要的是說大家在做VLA(視覺語言行動模型)訓練的時候,,很多時候在做基座的時候說我要把VL(視覺和語言)也要連在一起,,然后把VL(視覺和語言)的組合語料放進去,那這些無論是OpenAI還是DeepSeek,,它都沒有這樣的數(shù)據(jù),,它也沒有這樣的場景和需求,也不去解決這樣的問題,,那只能我自己來做了,。只是好處是說VLA(視覺語言行動模型)里邊的這個language(語言),我可以站在巨人的肩膀上,,但是它只是我其中的一部分,。
15. 所以一方面是擁抱了DeepSeek,另一方面你們把基座模型的團隊還拆出去了,,并且加大了投入,是嗎,?
我覺得首先訓練卡比他們今年的預期我們應該多買了3倍,。
16. 你要訓多大的模型?
并不是一個固定的,,就是我們現(xiàn)在的話,,做出來的一個不同的版本,比如說我們給理想同學用的,,會是一個300B的模型,,就大概是個3000億(參數(shù))的一個模型,我們給輔助駕駛運用的VLA(視覺語言行動模型)的,,其實VL(視覺和語言)的部分,,是個32B的模型。那包含其實我們真正工作中用的也會去用那個3000億的這個模型,,就大概現(xiàn)在是這樣的兩個版本,。
17. 你現(xiàn)在覺得給基座模型打多少分?你希望2025年提升到多少,?
結(jié)果還沒呈現(xiàn)呢,。這才幾月�,。课矣X得沒有什么捷徑,,我覺得還是我認為其實雖然我們借用了一些能力,,但是你沒有辦法直接去吃第十個包子。如果你規(guī)則算法都做不好,,你根本不知道怎么去做端到端,,如果你端到端沒有做到一個非常極致的水平,你連VLA(視覺語言行動模型)怎么去訓練都不知道,。
18. 那今年2月5號,,也就是春節(jié)之后,你們的第一個AI的例會,,你說DeepSeek更像是Linux推出,,而你們要去追逐安卓時刻,你們準備怎么去爭奪安卓時刻,?
這個東西是一個比喻,,比如說安卓其實是基于Linux開發(fā)出來的一個手機操作系統(tǒng)。那我們以語言作為基礎(chǔ),,我們的VLA(視覺語言行動模型)就是把vision(視覺)這部分做成最強的,,然后把action(行動)也做好,然后借助了L(language),,就是語言的這個能力,。那其實我覺得VLA(視覺語言行動模型)就比較像在汽車或者交通領(lǐng)域的更重要的一個大模型或者操作系統(tǒng),我覺得這是我們的機會所在,。
19. 我們來聊聊你們最近在做的VLA(視覺語言行動模型)的架構(gòu),。今天的輔助駕駛其實走到了一個新的十字路口上,有的人說甚至覺得輔助駕駛應該被叫停,。你怎么想,?
我覺著我們這么多年,從規(guī)則算法,,做到了端到端+VLM,,然后今天真正的邁入到了VLA(視覺語言行動模型)的階段,我覺得比較像什么,?比較像黎明前的黑暗吧,。我覺得黎明馬上就要來了。但是會先經(jīng)歷一個黑暗的過程,,之所以有黑暗是因為要迎來黎明,。我覺得這是今天這么一個階段。
正因為輔助駕駛行業(yè)遇到了問題,,我最喜歡,、最開心的方式,,就是去解決行業(yè)解決不了的問題,我覺得這是我們自己堅決相信的,。就跟我們推出增程,,就是為了解決電池成本高、充電難的問題,。我們推出5C也是為了解決充電慢,、等待時間長這樣的問題。我們愿意去解決各種行業(yè)遇到的問題,,包括我們做操作系統(tǒng),,也是因為過去的時候,傳統(tǒng)的那種車控和智控的操作系統(tǒng)性能差,,開發(fā)緩慢,,芯片匹配周期長的這些問題。我覺得這些問題(存在)恰恰是我們的價值所在,。
20. 為什么人類一定需要輔助駕駛呢,?為什么科技不能就此止步呢?
只要人類會雇傭?qū)I(yè)司機,。我覺得人工智能技術(shù)其實就是把類似這樣的一些功能和角色,,去變成真正的生產(chǎn)力、生產(chǎn)工具,,然后去進行替代,。
21. 什么是VLA(視覺語言行動模型)?你能從用戶語言來講,,不要用技術(shù)語言,。
我覺得VLA(視覺語言行動模型)我們定義的一個方式是叫,因為VLA(視覺語言行動模型)機器人領(lǐng)域也在講,,對于我們理想汽車而言,VLA是一個司機大模型,,像人類的司機一樣去工作的一個模型,。那我覺得到達VLA(司機大模型)它不是一個突變的過程,其實它是一個進化的過程,。
經(jīng)歷了三個階段,。我覺得第一個階段是我們從2021年開始,通過機器學習的感知,,配合后邊的規(guī)則算法,,包括規(guī)劃、控制,、執(zhí)行這些規(guī)則算法分段式的,。我覺得第一個階段比較像什么,?比較像昆蟲動物的智能。它有既定的規(guī)則,,還要依賴于高精地圖,,就比較像螞蟻的行動和完成任務的一個方式。
22. 它能理解的世界也很有限,。
非常之有限,,我覺得這是第一個階段,而且效率比較低,,也是個很麻煩的事情,。它(規(guī)則算法)就這樣一個規(guī)模的腦子,包括它的整個模型規(guī)模大概就只有幾百萬的一個參數(shù),,它就那么小的一個腦子,,你讓它去完成復雜的事情,幾乎不可能的,。所以你就不停地限定,、限定,幾乎把它做成了一個有軌交通的方式,。這跟螞蟻非常相似,。
第二個階段就是我們從2023年開始搞研究,2024年推出的端到端,。端到端比較像什么呢,?端到端比較像哺動物的智能,比如像馬戲團里的一些動物,,向人類學習怎么騎自行車,。它學了人類的這些行為,人類怎么去做出各種的行為的開車,。但是它對物理世界并不理解,,它只是看到了一個什么樣的三維的圖像,知道自身的速度,,并給出了一個什么樣的軌跡,,所以它應付大部分的泛化是沒有問題的,去面對它從來沒有學到的,、特別復雜的,,其實就會遇到問題。所以這時候我們也會配合,,視覺語言模型 VLM,,然后放進來。但是我們能夠用到的視覺語言模型這些開源的,,用在交通上的能力都非常的有限,,所以只能起到一些非常有限的輔助的一個作用,。我覺得第二個階段就是哺乳動物智能運作的一個方式。
我覺得到了VLA(司機大模型),,就是完全人類的運作方式了,。它會像人類一樣的,用3D的vision(視覺)和2D的組合,,去看整個真實的物理世界,,也包含它能夠去看懂導航軟件,這樣的軟件是怎么在運行的,,而不是像VLM(視覺語言模型)那樣只能看到一張圖片,。另外一方面,它有自己的整個腦系統(tǒng),,不但要看到物理世界,,還能夠理解這個物理世界。它有它的language(語言),,然后它也有它的CoT(思維鏈),,有推理的一個能力。我覺得第三個,,它能夠像人類一樣的,,真正地去執(zhí)行這樣的行動。我覺得這個其實是VLA(視覺語言行動模型)產(chǎn)生的一個,,放在我們的汽車,,輔助駕駛領(lǐng)域,,我們把它稱之為VLA的司機大模型,。
23. 你也可以講講VLA(司機大模型)這三個它的關(guān)系是什么,以及怎么訓的,。
我還是講一下怎么訓的,,并把這個關(guān)系表達清楚了,。我覺得第一個其實是訓練的環(huán)節(jié)。訓練環(huán)節(jié)第一個部分是什么呢,?要訓出來一個VL(視覺和語言)的基座,,就vision(視覺)和language(語言)的基座。我們目前在訓的,,當前的這個版本,是一個32B的,,就是320億云端的一個基座模型,,所以先訓這個。這里邊的話,,跟過去的時候這些語言模型的差異在于什么呢,?第一在于我要放入更多vision(視覺)的語料,,放入vision(視覺)的token(詞元)。vision(視覺)里面包含兩個部分,,一部分是3D上的vision(視覺),,物理世界3D的 vision(視覺) 要放進去,第二個是高清的,、2D的vision(視覺),。因為今天的話,大家看到各種多模態(tài)的開源 VLM(視覺語言模型) 里邊,,它整個2D vision(視覺)的清晰度太低,,所以看的距離不夠。那我們放進去的基本上圖像分辨率提升了10倍,。我覺得這是非常之重要的,。這是一個部分,是vision(視覺)的token(詞元)和語料,。
第二個是要放入language(語言),,跟交通、駕駛相關(guān)的足夠多的這方面的語料,。這是language(語言)的部分,。
第三個還有一個很重要的,是大家可能容易忽略的,,就我們必須放入很多VL(視覺和語言)聯(lián)合的語料,,就是三維圖像和對世界的理解語義要同時產(chǎn)生的。比如我舉一個例子,,我要把導航的地圖和車輛對導航地圖的理解一起放進去,。
24. 這是原始的數(shù)據(jù)嗎?
沒有原始的數(shù)據(jù),。
25. 這是你們自己的,?
比如我要放入一個,看到導航以后人類做了一個什么判斷,,然后這個判斷我們的車輛是怎么記錄的,。把這個語料放進去。其實整個 VL (視覺和語言)基座模型訓練的時候,,包含了三個部分,,數(shù)據(jù)是vision(視覺)的數(shù)據(jù),language(語言)的數(shù)據(jù)和VL(視覺和語言)聯(lián)合的數(shù)據(jù),。然后它形成一個VL(視覺和語言)的一個基座,。同時我要把這個基座干什么呢?我要蒸餾下來,然后變成一個 3.2B 端側(cè)的蒸餾模型,。因為我要保證它運行速度足夠得快,,然后無論是兩個Orin-X還是Thor-U上能夠流暢地運行。蒸餾下來是一個3.2B,,8個專家組成的MoE(混合專家模型)模型,。如果直接跑3.2B一個完整模型的話,雙Orin-X和Thor-U的幀率是達不到的,,token(詞元)的整個輸出率是達不到的這是第一個步驟,,這是預訓練的環(huán)節(jié)。
第二個步驟是什么,?第二個步驟是做后訓練,。后訓練是什么呢?后訓練其實是我把它變成VLA(司機大模型),。我要把action(行動)放進來,。action(行動)的部分后訓練什么呢?其實仍然是一種模仿學習,。特別像你去駕校學開車,,就相當于我訓練VLA(司機大模型),把它組合成一個VLA(司機大模型)的端到端的一個方式,,這是第二個部分,。這個時候大概模型規(guī)模就會從3.2B大概擴大到接近4B,大概這么一個規(guī)模,。
同時,,它一方面是個VLA(司機大模型),能夠直接從視覺,,到理解,,到最后的輸出。但是我們的CoT(思維鏈)就會很短,,我不會做超長的CoT(思維鏈),,我的CoT(思維鏈)鏈條一般兩步到三步,我不會再做更多的,,否則延時太長,,沒有辦法滿足交通或者機器人的安全。另外當我 action(行動)做完以后,,我還會做一個diffusion(擴散模型)的預測,,就是下邊會發(fā)生什么樣的時長的一個場景。這個主要根據(jù)性能會做出來4到8秒的一個diffusion(擴散模型)的軌跡和環(huán)境的預測,。我覺得這是第二個部分,,比較像人去駕校學開車這樣的一個環(huán)節(jié),。
第三個部分是什么?是強化,,是要做強化的訓練,比較像人到社會上開車了,。所以強化我們分成兩個部分,,第一個部分先做RLHF(基于人類反饋的強化學習學習),帶有人類反饋的,,所以我們有很多人類數(shù)據(jù),。就是當它這樣的話,人類就會接管,,當它那樣的話,,人類不會接管。包括人類的一些習慣,,所以拿這塊來做一個帶有人類反饋的強化訓練,。包括我們安全的對齊都是在這個強化的環(huán)節(jié)完成的,你除了要遵守交通規(guī)則以外,,你要遵守比如中國的,,大家的駕駛習慣。你的開車習慣能夠融入社會,,首先要開得跟整個社會環(huán)境上的大家一樣好,,不能給別人帶來麻煩,對吧,?而不是個新手在路上的時候,,你變成一個阻礙。第二個部分是純粹的RL(強化學習),,是(拿RL模型放到)我們的世界模型來做訓練,。這塊兒的目的什么呢?就是開得比人類更好,。這塊兒的話,,我們中間不會給人類的反饋,只會給一個結(jié)果,,就是從a點到b點要開過去,。但是會有三類的訓練要求,第一個是我們可以通過G 值(加速度數(shù)值)來判斷它的舒適性,,給舒適性的反饋,。第二個是做碰撞的反饋,它碰撞了這個強化就沒有完成,。第三個是交通規(guī)則的反饋,,如果它違反交通規(guī)則就沒有完成。所以是舒適、交通規(guī)則和碰撞事故,,讓它自己來做整個強化的訓練,。當這三個步驟完成了以后,VLA(司機大模型)能夠跑在車端的模型其實就產(chǎn)生了,。
大概是這么一個方式,。跟人非常像,先學習世界,、交通和人類的這些知識,,這是預訓練的環(huán)節(jié)。后訓練的環(huán)節(jié)相當于去駕校,,認真地去學開車,。第三個環(huán)節(jié)相當于到社會上來開車,也是我們訓練的一個過程,,要通過人類的RLHF(基于人類反饋的強化學習學習)跟人類做對齊,,然后跟社會的環(huán)境來對齊。另外一方面,,通過純RL(強化學習)的強化,,以及我們自己在世界模型里生成的數(shù)據(jù)拿它做強化訓練,從而開得比人類更好,,能夠解決更復雜的問題,,或者說,比人類的平均值要好得多,,大概是這么一個過程,。
這還沒有完,這時有了VLA(司機大模型),。但人類是怎么跟VLA(司機大模型)工作的時候,,其實我要搭建一個司機的Agent(智能體)。司機的Agent(智能體)是什么呢,?是人類以自然語言的方式,,就是你跟一個司機怎么說話,你跟一個正常的駕駛員,,假設(shè)你有男朋友,,你男朋友在開車,你怎么跟他說,,你就怎么跟司機Agent來說,。或者一個代駕,,你怎么跟他說就說了,。這里邊的話,,如果是一些短指令,通用的短指令VLA(司機大模型)直接就處理了,,不需要再經(jīng)過云端,。如果是一些復雜的指令,其實先要到云端的32B那里,,VL(視覺和語言)處理完以后,,(因為它理解交通的一切) ,整個交給VLA(司機大模型)來進行處理,,大概這么運行的一個過程。
說白了它最后的一個好處是說它能夠像人類司機一樣去理解物理世界,,能夠像人類司機一樣去開車,,去處理復雜的問題,也能像人類司機一樣跟其他人類進行溝通,。這是最后我們交付到用戶那里的產(chǎn)品,。
26. 這其中這些步驟里面哪個是最難的呀?
沒法預測,,我覺得沒有辦法預測,。因為這些東西我們前面沒有任何人走過這條路。DeepSeek也沒走過這條路,,然后OpenAI也沒有走過這條路,,谷歌、Waymo也沒有走過這條路,。我們其實走的是一個無人區(qū),。
27. 那你們?yōu)槭裁淳蚥et(下注),為什么就押注了這條路呢,?因為我最近做了一個技術(shù)播客,,就是講 VLA(視覺語言行動模型),我就感覺這個技術(shù)路線還沒有收斂,。為什么你們覺得你們可以,?
我覺得交通領(lǐng)域應該是VLA(視覺語言行動模型)最早實現(xiàn)的。因為一是規(guī)則清楚,,包括你說做強化是非常容易的,。按照每個來講,交通的世界,,一個車會跑到哪里,?其實是有的,雖然它很復雜,,但是確定的,,對吧,?車又不能開到水里,車也不能開到空中,,車只能開到有路的地方,,所以它是復雜但具備確定性,對吧,?我覺得這是一點,。
第二其實車的控制,其實車是個3 DoF(自由度),,車有三個自由度,,對吧?左右是一個自由度,,前后是個自由度,,某種程度上還有一點輕微的旋轉(zhuǎn),是個自由度,,對吧,?甚至輔助駕駛某種程度就控制兩個多,撐死就三個自由度,。如果這個都不能實現(xiàn),,機器人的上來就是40多個自由度,那個挑戰(zhàn)就更大了,。
所以這時候,,我們進行模仿學習是特別容易的。所以車看到的就是人看到的,,人操作的其實就是車操作的,,所以我覺得第二個它能做特別好的模仿學習。
第三個它還能做特別好的強化,,對吧,?就是大家在使用的過程中不滿意的時候就接管了,其實這個就是跟人類沒有對齊,,對吧,?它就告訴你不應該這么做,以及告訴你該怎么做,,這是非常清晰的指標,,對吧?包含哪怕其實不做,,包括后邊我不做人類監(jiān)督,,我靠生成數(shù)據(jù)來做訓練的時候也非常清晰。因為什么是舒適,,G值(加速度數(shù)值)是可以表達的,。什么是符合交通規(guī)則是能夠表達出來的,,交通規(guī)則是個清晰的規(guī)則。第三個是否發(fā)生碰撞是可以表達的,。如果它很舒適,,又不違反交通規(guī)則,然后第三個,,又沒有發(fā)生碰撞,,a點到b點它就會開得越來越好。我覺得它是一個最好的 VLA(視覺語言行動模型)的,,第一個重要的實驗場,。
28. VLA(視覺語言行動模型)還有包括VL,它的哪個數(shù)據(jù)獲取難度是最大的,?
vision(視覺)和action(行動)的數(shù)據(jù)是因為車,,我們裝滿傳感器是可以收集物理世界數(shù)據(jù)的,還有人在車上開車是我們可以收集到action(行動)的數(shù)據(jù)的,,這兩個其實是最難的,而且也沒有任何公司可以替代,。
29. 其他的車企不行嗎,?其他車企也可以啊。
但是我覺得其他車企你有沒有建立整個基座模型的,、預訓練的能力,,后訓練的能力,以及后邊強化的能力,,因為強化還需要世界模型的能力,,我覺得這是不一樣的,對吧,?包括我剛才講的說,,其實本身我們怎么去解決很多的問題,比如說我講一個問題,,第一個如何提升能力剛才講清楚了,,第二個是說我如何向人類安全對齊,我如果讓它像一個職業(yè)司機一樣足夠的安全,,足夠的舒適,,所以我們本身能夠要建立強化學習的體系,對吧,?我們的RLHF(基于人類反饋的強化學習學習)是很重要的,,我們其實有一個成規(guī)模的團隊了。
因為很多時候一家公司如果模型能力不強的時候,,根本不知道怎么去做對齊,,對吧,?因為你模型能力強的時候,你才發(fā)現(xiàn)對齊的重要性,,你才知道Ilya(伊爾亞·蘇茨克維,,OpenAI聯(lián)合創(chuàng)始人)原來想得那么遠。Ilya把很多事情想得那么遠,。
30. 怎么說,?
因為模型能力越強,也就意味著它胡來的可能性越高,,就跟一個人能力越強,,其實我要需要他的職業(yè)性越強。公司規(guī)模越大,,越需要職業(yè)性,。公司小時候不需要職業(yè)性,對吧,?然后因為一個人能力強的時候,,他干好事也很強,他干壞事能力也很強,,所以這時候就需要職業(yè)性來約束,。
比如舉個例子,我不可能雇用一個職業(yè)賽車手來每天給我開車,,但我要雇一個職業(yè)司機,,所以他除了開車能力不錯以外,他有非常強的職業(yè)性,,保證舒適,、保證安全,保證像人類開車的,,價值觀能夠?qū)R,,所以這個其實是很重要的工作,我們就能做得非常好,。
我覺得第三個還有最大的一個挑戰(zhàn),,就是模型是一個黑盒子。怎么解決,?所以我們做了世界模型,,對吧?然后我們把VLA(司機大模型)放在世界模型里,,一個交通世界模型,,它是一個如果不跟你說的話,你看的跟一個真實世界是一樣的,。
31. 模型是一個黑盒,,怎么解決它,?
我們很早的時候在做端到端的時候就意識到,然后模型的黑盒子問題必須得一起解決,。所以我們當時然后做的世界模型,,或者說是叫交通世界模型,就是我們用重建加生成的一個方式,,借助我們的數(shù)據(jù),,然后來構(gòu)建了一個真的、交通的一個物理世界,,包含有所有的參與者,、參與物,所有的固定的這些物體,,我覺得這是非常重要的,。
所以我們就可以讓無論是最開始的這個端到端還是今天的VLA(司機大模型),在模型里邊進行考試,,它會模擬真實的交通的參與,,包括真實的這些城市,來進行考試,,而且考試有點像我剛才,,跟我剛才講的然后強化訓練其實非常類似。它考什么呢,?考a點到b點,。然后考什么呢,?考這個它的舒適性,、它的交通的合規(guī)性和它的安全性。
我覺得這是我們要一直在做的這方面的一個工作,。那這時候就能夠非常好的還原了,,而且基于這樣的一個 我們的模型或者真實的物理世界的仿真的能力。我們還把整個的驗證的成本大幅的下降,,過去的時候我們靠人類司機來做一萬公里的驗證,,這個每一萬公里的成本大概在17萬到18萬人民幣,算上車的各種費用,,今天的話我們大概只需要花4000多塊錢人民幣,,就每一萬公里。那這4000多塊錢基本上都是算力為主的成本,,而且解決問題的效率還提升的多得多,。
為什么呢?比如說其實今天的時候,,我們要解決一個問題的時候,,這個問題產(chǎn)生的時候,,是我們自身的車輛跟多個交通參與物在不同的位置上,還有不同的道路上,,出現(xiàn)了一個問題,,但是如果你靠人類去驗證我有沒有解決這個問題?要把這幾個交通參與物,,相同的位置,、相同的速度,其實湊在一起,,幾乎沒有可能,,所以只能模糊的驗證。但今天,,然后我們有了世界模型以后,,我們可以非常準確地驗證。我們修正以后的模型有沒有解決這方面的問題,,可以100%還原一模一樣的,、真實的場景,在世界模型里,,進行驗證,。
32. 我們在說司機Agent(智能體)的時候,它其實是涉及到action(行動)進入了外部世界,,進入了物理世界,。那怎么解決安全問題呢?這個非常重要,。
所以我們其實從去年年底成立了超級對齊的團隊,,比如說模型能力很強,但不遵守交通規(guī)則,,然后模型能力很強,,但模型經(jīng)常去加塞,去在交通擁堵中去加塞,,對吧,?它做出來一些讓人類坐在車上感覺到不安全的行為,對吧,?那我覺得這個其實,,至于是否讓它碰撞,是模型能力的問題,,是否產(chǎn)生這些問題,,其實是這個價值觀,是這個模型要去做的對齊的這方面的。
所以這也是剛才我講的,,就是說我們要在做強化,,訓練的第一個環(huán)節(jié),是我們必須把人類的這些規(guī)則,、習俗,、駕駛習慣,對于很多東西的判斷,,其實變成它整個的要訓練的反饋,。我覺得這個其實我們必須要做的,所以我們有一個挺大規(guī)模的,,我們有一個100多人的超級對齊團隊,。
因為你能力越強、責任越大,,我覺得這是責任,,或者你還可以用另外一種方式,我們把超級對齊如果拿一個人舉例子的話,,模型相當于是這個人的專業(yè)能力,,然后超級對齊,是這個人的職業(yè)性,。
是他的綜合職業(yè)性,。然后司機Agent(智能體),包括司機背后的這種記憶能力是如何和使用者建立信任的,,所以我們比如說我招一個員工,,或者我是否認可一個員工,同樣是看他三個,,第一個,,是看他的專業(yè)能力,然后第二是看他的職業(yè)性,,然后我覺得第三個是看他其實對別人理解和構(gòu)建信任的能力,,比如這三個都很好,,我覺得就是最卓越的員工,。
33. 超級對齊,是什么時候開始做的呀,?
是我們做到了1000萬Clips(視頻片段)以后開始來做的,,因為我發(fā)現(xiàn)這時候怎么去有效的運用模型的能力就很關(guān)鍵了,比如就舉個例子,,它經(jīng)常一擁堵就去加塞,,然后這個包括它做的很多行為,雖然效率很高,但是人坐在車上是很不舒服的,,因為跟人類的一些處理方式或者跟正常人類處理方式不一樣,,它可能學到了一些不該學的司機的行為。
34. 我聽你說我有一個感受,,就是剛開始大模型火的時候,,大家都說創(chuàng)業(yè)要做AI是造人,你們這個其實就是在造司機,。
對,,是的。我一個很重要的感覺就是,,我們只有讓它變成一個真正的司機,,它才是一個生產(chǎn)力工具,不只是一個輔助工具,,對吧,?今天L2,L2+其實是個輔助工具,,輔助工具其實還需要人大量的參與,。但是我覺得如果想變成一個生產(chǎn)工具,我個人認為并不會出現(xiàn)通用的 Agent(智能體),,而是每個專業(yè)領(lǐng)域做專業(yè)的Agent(智能體),。就我剛才講的一樣,其實要想開好車,,它所有的vision(視覺)的語料,, language(語言)的語料,和action(行動)其實都是不一樣的,。你想做好一個醫(yī)生,,你想做好一個律師,其實背后的整個思維鏈,,所有的數(shù)據(jù)其實都是完全不同的,。所以我覺得這是判斷。
另外一方面,,如果你想變成一個生產(chǎn)工具,,這時候就會和專業(yè)的人進行比較,比如說你是否比一個專業(yè)的司機開得更好,?你是否比一個專業(yè)的醫(yī)生表現(xiàn)得更好,?你是否比一個專業(yè)的律師表現(xiàn)得更好?你是否比一個專業(yè)的程序員表現(xiàn)得更好,?因為你會影響到它的整個生產(chǎn),,它的整個業(yè)績,,它的工作結(jié)果,甚至它的財產(chǎn)和生命安全,。我覺得這是我們看到的這個終點,,所以這也是為什么我們必須很耐心、很深入地去解決,,哪怕一個司機的問題,。它并不可能通過一個泛化的大基座模型,或者一個大語言模型,,這些東西都能實現(xiàn)了,,我覺得這是不現(xiàn)實。
35. 什么是一個好的司機大模型的北極星指標(終極指標),?
我覺得還是把司機大模型和Agent(智能體)放在一起,,這才是一個真正用戶能夠使用的一個產(chǎn)品,那如果是一個,,我覺得如果是一個司機大模型,,好的,我覺得跟人的判斷是一樣,,就我判斷一個司機,,就我們家雇用了一個司機,第一是他開車水平好不好,?其實是他模型能力強不強,?第二個還是說他是否職業(yè)?然后我覺得那他是否職業(yè),,很重要的一點其實就是我們的超級對齊這方面的工作,,包括強化訓練,是否做得足夠的好,?然后我覺得第三個,,是否安全,對吧,?,、我覺得第三個是他跟我之間的信任的關(guān)系,我是跟他說什么他都聽不明白,?還是我說上半句他就知道下半句,,甚至我很多東西不說,他已經(jīng)對我的記憶里邊都可以獨自去完成了,。
其實就我們?nèi)绾稳ネㄟ^Agent(智能體)和記憶來構(gòu)建一個更好的信任的一個關(guān)系和理解的一個關(guān)系,。如果我什么都不說,,他都知道我要干什么了,,這個司機要同時又滿足了他開車不錯,又很職業(yè),他又對我特別了解,,特別理解,,我就會一直雇傭他。對,,我覺得最后我們對司機的Agent(智能體),,對整個的這一個司機大模型,司機Agent(智能體)的判斷也是一樣的,。我覺得以后所有的AI的或者Agent(智能體)的判斷都應該是這樣的,,它的專業(yè)能力,它的職業(yè)能力,,然后以及它給你構(gòu)建信任的這個能力,。
36. 你覺得這個Agent(智能體)應該怎么定價呢?
我們雇用人類費用的幾分之一,,至于幾分之一最后還是看把成本都算出來以后,,我覺得比如說我一個月,我雇一個司機,,1萬塊錢,,我是否愿意?2千到3千雇傭一個司機,。然后我覺得這個其實是一個,,可能是一個比較重要的一個判斷,當然它也會帶來其他商業(yè)模式的不同,。比如說你花2千到3千塊錢雇傭一個司機,,那可能你對車而言,你可能也不需要付保險費了,,保險費也包在這里邊了,,保險的費用就財產(chǎn)的保險,這個財產(chǎn)險的費用也包含在里邊了,。也可能一定的這種,,因為它可能會自動去充電,可能一定的充電的金額,,對應一定里程的充電金額也放在里面了,。所以可能到最后算下來,還可能是個更劃算的一個事情,。
37. 我們剛剛在聊 VLA(視覺語言行動模型) 嘛,,那是不是意味著端到端才出來一年,你們就要換架構(gòu)了,?這個是不是太快了,?去年端到端就被放棄了嗎,?
我覺得也沒有放棄,還是我剛才講的,,其實端到端是VLA(視覺語言行動模型)的一部分基礎(chǔ),。如果你把端到端想象成一個一個具身智能執(zhí)行的環(huán)節(jié),那它其實就是我們VLA(視覺語言行動模型)的A(action 行動)的部分,,就我A(action 行動)的部分其實仍然是在拿這個數(shù)據(jù)在做訓練的,。其實它就組成了我的A(action 行動)的部分了。只是我要多語言的部分,,還要多更強的3D vision(視覺)和高清2D vision(視覺)的部分,。
38. 有可能一步直達 VLA(視覺語言行動模型)嗎?就比如說去年不推出端到端加VLM(視覺語言模型)那個版本,,然后直接推 VLA,,直接研發(fā)VLA。
沒有可能,,至少從我們自己的體驗上其實沒有可能,。我說不太好聽的話,就是沒有辦法直接吃第十個包子,。雖然可能大家覺得第十個包子吃飽了,但前面每個包子其實都跳不過去,。我覺得往往很多時候,如果大家不想做前面任何包子的積累,,只想吃第十個包子,,很多時候非常像練葵花寶典。我覺得今天包括DeepSeek的出現(xiàn)并不是練葵花寶典練出來的,,過去的時候它很早就構(gòu)建這種集群的能力去做這些鏈路,、基建的優(yōu)化,我覺得都是非常之重要的,。所以才有了它的低成本和效率啊,。所以我說其實我們特別喜歡講這種,有一個人很聰明直接吃到了第十個包子,,但現(xiàn)實中其實,,至少今天這個社會整個的知識文明發(fā)展得越來越好了,不是膽大大于一切,,我看不到什么捷徑,。包括今天很多企業(yè)做端到端都很吃力,因為在規(guī)則算法時候都沒做好,。
39. 但是大家就覺得李想才是摘第十個包子的人,,因為你們做輔助駕駛的時間比別人晚。
但我們自研的時間并不短啊,。我們從2021年,,上地平線征程Journey3芯片的時候就開始做自研,。然后我們研究做得也很扎實。我覺得中國的所有企業(yè)里邊,,關(guān)于輔助駕駛的論文我們應該是發(fā)表,,以及被大的會議,,大的社區(qū)錄取和引用的其實應該也是最多的,。我覺得這個階段我們還是做的挺扎實。
因為我們是個用戶導向的公司,,我們認為技術(shù)是一種能力,,所以我們更多的時候講的是用戶的價值,今天大家講我們是冰箱,、彩電,、大沙發(fā),對吧,?但是背后的話,,我們的這個冰箱、彩電,、大沙發(fā)的智能化背后的基礎(chǔ),,今天大家看仍然是非常強的,體驗起來是完全不一樣,。
40. 背后的基礎(chǔ)是什么,?
就是大型軟件的能力。我們后邊很多能力其實還是很扎實的,。比如舉一個例子,,就為什么今天大家做端到端和VLM(視覺語言模型)很難?是因為這個Orin芯片并不支持直接跑語言模型,。我們是自己的編譯團隊,,所以我們特別理解DeepSeek,一看就看明白了,,比如它做FP8(8位浮點數(shù)格式)的優(yōu)化,,能夠跑它的整個訓練的一個架構(gòu)。我們做相同的事情,,我們直接然后是寫了 Orin-X底層,,因為英偉達沒時間,我們自己寫的底層(推理引擎),,讓它用 INT4量化的方式來跑 VLM(視覺語言模型),。那這跟誰(DeepSeek)做 FP8(8位浮點數(shù)格式) 的訓練其實一個道理。包括今天的話,,我們?yōu)槭裁茨茏龅诫pOrin-X跟Thor-U 都能跑VLA(司機大模型),,可能對很多團隊是個非常大的挑戰(zhàn),,為什么呢?因為我們自己有非常強的能力,,我們有編譯團隊,,然后我們有芯片的能力,然后我們有板子設(shè)計能力,,有操作系統(tǒng)能力,,所以我們是能夠把兩個 Orin-X帶寬足夠的大,它同樣可以跑同等規(guī)模的VLA的模型,。我覺得我們這方面的技術(shù)都是非常之扎實的,。因為我自己還是認為,其實就是你規(guī)模小的時候無所謂,,你規(guī)模大的時候基本功和能力永遠是無法逾越的,。
41. 所以什么樣的corner case(長尾案例)是可能端到端加VLM(視覺語言模型)架構(gòu)無法解決,而VLA(視覺語言行動模型)是可以解決的,。能不能給大家舉個例子,。
我覺得有兩個。過去的時候端到端有兩個麻煩的問題,。第一個問題是它對復雜東西的理解,,比如這有一個復雜的修路,如果是規(guī)則算法可能就會撞上了,,如果是端到端可能停下來,,但它不知道該怎么干了。如果是VLA(司機大模型)就能輕松解決了,,而且這些我不需要有真實的場景,,甚至我可以直接生成,然后來數(shù)據(jù)來進行訓練,,對吧,?因為它能夠有理解能力了,它并不是只是看到一個景象,,就做出一個結(jié)果,。規(guī)則算法其實往往可能就會出現(xiàn),遇到一個復雜路況,,復雜的,、沒見過的,或者規(guī)則之外的它就會出現(xiàn)事故,。如果是端到端的,,它可能停下來,但它不知道該怎么辦了,我們經(jīng)常遇到修路狀況,,它在那不知道猶猶豫豫,,不知道該怎么辦,對吧,?但是如果VLA(司機大模型),,它其實就能夠有效地去處理了,而且不需要通過海量的數(shù)據(jù)訓練,。哪怕最開始這個場景沒有辦法處理,,但我保證三天之內(nèi)相關(guān)的這種場景都能處理,因為我可以拿這東西來生成數(shù)據(jù),,生成讓數(shù)據(jù)來進行訓練,。我覺得這是一方面,。
另外一方面其實還有很難的一點是跟人溝通,。今天端到端怎么做?就跟猴子一樣,,你影響不了它,,對吧?比如說我們會經(jīng)常遇到一個什么樣的狀況,,就是在一條路上三條道,,最右側(cè)的車道是公交車道,然后又是限行,,但是公交車道長久沒有維護了,,那個印刷已經(jīng)不清楚了,所以它就會在那跑,,雖然你可以通過一個調(diào)整說,,回到中間車道,但它過一陣又跑到那條車道上去了,。如果是人類有了Agent(智能體)以后,,因為有了VLA(司機大模型)才有Agent(智能體)能跟VLA溝通,對吧,?所以我可以跟一個Agent(智能體)講說,,接下來這條道路一直在中間行駛,直到它在導航的時候走了下一個,。包含如果跟導航錯失了以后,,端到端就不知該怎么辦了,但是VLA(司機大模型)在小區(qū)里可以漫游,。在一個開放空間里,,它可以先處理完以后,最后再跟導航調(diào)整以后的進行匯合,它跟人類完全一樣的了,。只是今天可能它作為一個人類,,能力還沒那么強,作為一個人類能力還有一個成長的過程,,比如它今天像一個剛從駕校學完的新手司機,,有可能是這么一個狀況。
42. 今年都會是這個狀態(tài)嗎,?
我覺得還是看整個訓練的一個進度了,。但它泛化能力是完全不在一個量級上了。
43. 你覺得VLA(視覺語言行動模型)是終極的架構(gòu)嗎,,解決自動駕駛的,?還會有下一代嗎?會不會明年這個時候又是新的架構(gòu)了呢,?
我自己認為VLA(司機大模型)能夠解決到全自動駕駛,,但是VLA(司機大模型)是否是一個效率最高的方式?是否有效率更高的架構(gòu)出現(xiàn),?我打個問號,,我認為大概率還是會有的啊。因為VLA(司機大模型)還是基于Transformer這樣子的,,那Transformer是不是一個效率最高的一個架構(gòu),,對吧?那我覺得這個其實后邊不知道,。
44. 它是現(xiàn)階段效率最高的架構(gòu),,在你看來?
我覺得它是能力最強的架構(gòu),。對,,因為現(xiàn)在能力差距太大了,就跟人類合格開車,。今天這個輔助駕駛的這些規(guī)則算法,、端到端跟人類差距還是太大了。對,,然后那我覺得它是最接近人類的,,甚至有機會超過人類能力的一種,就關(guān)于開車超越人類的一種方式,。那它是不是效率最高的方式,?其實是打個問號,因為它今天對算力的要求還是很高的,。
45. VLA(司機大模型)跟最后可能形成的最終大統(tǒng)一模型的關(guān)系是什么呀,?它是那個大統(tǒng)一嗎?
我覺得還是會有一個效率的問題,對吧,?我講的意思是,,其實我們雖然有模型,但我們從來不放棄工具,,然后因為工具是增加確定性和提高效率的,。我還是舉一個挺清晰的一個例子,因為團隊很多時候太想用模型解決一切問題,,對吧,?然后那這時候就會出現(xiàn)類似一個現(xiàn)象,比如我舉一個例子,,那今天當然VLA(司機大模型)會解決很好了,,其實我們在使用 VLM在解決ETC時候并不好。
因為VLM(視覺語言模型)對于位置的判斷是很糟糕的,,所以它如果其實是兩到三個ETC,,然后我怎么進入其實非常容易判斷,其實就是這個左中右,。但如果像京承高速這樣的機場高速那樣的十幾個ETC,,它很多時候就不知道怎么處理了,,就開始非�,;靵y了,因為它沒有位置的判斷的這個能力,,我們團隊太希望用模型去解決問題,,就是說不停地去給VLM(視覺語言模型)喂更多的語料,更多的東西,,其實都沒有解決這個問題,,因為這是VLM(視覺語言模型)的那個架構(gòu)問題。
然后我跟團隊說,,那解決ETC為什么不能用規(guī)則算法,?因為最多的也有15個口,對吧,?15個口對于你們而言,,寫一個程序基本上一周之內(nèi)就能完成,甚至三天就能完成,。但是我說很多時候我們心里有個心結(jié),,對吧?因為人類很多運行的時候其實是大模型運行,,但是我說我們作為一個這個正常的人,,我們其實也會背乘法口則,乘法口則就是個規(guī)則算法,對吧,?但是乘法口則的結(jié)果是我們消耗的腦力更少,,對,我們消耗的token(詞元)更少,。
然后以及我們的準確性更高,,所以它就是個好東西,它就是個工具,,對吧,?然后如果是一個確定性的,能夠拿規(guī)則去解決的,,其實它意味著更低的能量消耗,、更低的算力消耗和更高的準確性,對吧,?那我覺得為什么不用,?所以團隊很快就把問題解決了,所以我們在ETC就非常的穩(wěn)了,。其實一周都不到就解決了,,過去的時候解決了三四個月都解決不了的,成本很高的方式解決不了的,。所以我說就是我覺得真正往下去落的時候,,很多時候還是要考慮效率,就是今天DeepSeek之所以受到全世界的矚目,,很重要的一個原因還是因為它的效率變得更高了,。
45. VLA(司機大模型)跟最后可能形成的最終大統(tǒng)一模型的關(guān)系是什么呀?它是那個大統(tǒng)一嗎,?
我覺得還是會有一個效率的問題,,對吧?我講的意思是,,其實我們雖然有模型,,但我們從來不放棄工具,然后因為工具是增加確定性和提高效率的,。我還是舉一個挺清晰的一個例子,,因為團隊很多時候太想用模型解決一切問題,對吧,?然后那這時候就會出現(xiàn)類似一個現(xiàn)象,,比如我舉一個例子,那今天當然VLA(司機大模型)會解決很好了,,其實我們在使用VLM在解決ETC時候并不好,。
因為VLM(視覺語言模型)對于位置的判斷是很糟糕的,,所以它如果其實是兩到三個ETC,然后我怎么進入其實非常容易判斷,,其實就是這個左中右,。但如果像京承高速這樣的機場高速那樣的十幾個ETC,它很多時候就不知道怎么處理了,,就開始非�,;靵y了,因為它沒有位置的判斷的這個能力,,我們團隊太希望用模型去解決問題,,就是說不停地去給VLM(視覺語言模型)喂更多的語料,更多的東西,,其實都沒有解決這個問題,,因為這是VLM(視覺語言模型)的那個架構(gòu)問題。
然后我跟團隊說,,那解決ETC為什么不能用規(guī)則算法,?因為最多的也有15個口,對吧,? 15個口對于你們而言,,寫一個程序基本上一周之內(nèi)就能完成,甚至三天就能完成,。但是我說很多時候我們心里有個心結(jié),,對吧?因為人類很多運行的時候其實是大模型運行,,但是我說我們作為一個這個正常的人,,我們其實也會背乘法口則,乘法口則就是個規(guī)則算法,,對吧?但是乘法口則的結(jié)果是我們消耗的腦力更少,,對,,我們消耗的token(詞元)更少。
然后以及我們的準確性更高,,所以它就是個好東西,,它就是個工具,對吧,?然后如果是一個確定性的,,能夠拿規(guī)則去解決的,其實它意味著更低的能量消耗,、更低的算力消耗和更高的準確性,,對吧,?那我覺得為什么不用?所以團隊很快就把問題解決了,,所以我們在ETC就非常的穩(wěn)了,。其實一周都不到就解決了,過去的時候解決了三四個月都解決不了的,,成本很高的方式解決不了的,。所以我說就是我覺得真正往下去落的時候,很多時候還是要考慮效率,,就是今天DeepSeek之所以受到全世界的矚目,,很重要的一個原因還是因為它的效率變得更高了。
46. 特斯拉FSD真實的進入了中國,,對你有沒有什么影響,?
我們認為,我們自己一個判斷的話,,從實測過來的話,,他們大概在用12.5之前的模型。對,,在用12.5之前的模型,,然后并不是特斯拉真實能力,距離特斯拉真實能力還有巨大的差距,。特斯拉13.0以后的能力還是非常強的,。而且 12.5之前的話應該其實是這個半規(guī)則算法的能力。所以我說不是特斯拉真實能力的體現(xiàn),,但是我們能看到特斯拉基本功是非常扎實的,。它的整個的感知的距離,它整個運行的幀率,,它整個的車輛的整個的控制的穩(wěn)定性,。
47. 為什么沒有釋放真實的能力?
我覺得因為如果直接上端到端的話,,有中國的這些路況什么的,,其實剛才我就像我講的,它在美國沒有學習到這些東西,,然后再遇到這些復雜的,,是還是會遇到挑戰(zhàn)的。
48. 你們現(xiàn)在還學特斯拉學的多嗎,?最近從他身上學到了什么呀,?
我覺得美國的很多的頂級的公司,像蘋果,,像特斯拉這種企業(yè),,就是他們基本功特別扎實,。然后我覺得這個是我們真正要去學的,尤其是在今天這種內(nèi)卷的環(huán)境下,,然后包括外部的不確定的環(huán)境下,,我覺得這時候更是每個企業(yè)扎扎實實練基本功的最好的時候,而且到了人工智能時代的話,,基本功就更是不可能,、不可跳躍的。所以我覺得如果很多企業(yè)做了很多的創(chuàng)新,,但是沒有基本功,,不扎實,所以很多創(chuàng)新就會曇花一現(xiàn)就過去了,,所以這會是很大的問題,。因為就它雖然擁有很多錢,能發(fā)明了很多東西,,就創(chuàng)造,、創(chuàng)新了一些很多的功能的組合。但是你會發(fā)現(xiàn)能力強的公司復制的東西基本上在人工智能時代都是按周計算的就能復制過來,,所以那個能力的基本功還是非常重要的,。
49. 為什么是學蘋果呢?它也不是一家AI公司啊,。
我覺得最重要的是學能力,。我們在小的時候沒有看明白,沒有看懂蘋果,,那這個階段的時候我們可能又去認真研究蘋果,,發(fā)現(xiàn)蘋果還有很多能力其實值得我們?nèi)W習的。
所以到今天為止,,你去看一個蘋果作為一個全世界市值第一的公司,,當你做到千億收入,你再去看這種萬億收入公司的能力的時候,,你開始模模糊糊能看懂一些了,。但是我們小的時候,我們很小規(guī)模的時候,,我們看不懂蘋果為什么這么做。我覺得最后其實是規(guī)模,,因為規(guī)模是一個可以確定衡量的變化,,也會帶來用戶規(guī)模和用戶需求的變化,技術(shù)和產(chǎn)品的變化,,也會帶來組織和能力的變化,。
50. 你有試駕過上了VLA(司機大模型)的車嗎,?體驗怎么樣?有經(jīng)歷過什么aha moment(驚喜時刻)嗎,?
我覺得挺難有什么aha moment(驚喜時刻),,因為你已經(jīng)理解它的原理了,其實就是它就變得跟人很像了,。
51. 就更像人了,。
就真的像人了。它變成更像人其實沒什么驚奇的,。對吧,?相反一個動物忽然會的一些東西,你覺得挺驚訝,,但一個人做好東西,,你認為其實是正常的。
52. 你之前對內(nèi)說過一句話,,說理想的智駕原創(chuàng)性超過了增程,,這句話是不是太自信了?
我自己覺著就我們在這方面的研究工作真的做得很深,。所以你看到我們的各種的論文,,而且我們?yōu)榱耍缓笪覀優(yōu)榱俗龊�,,我們�(yōu)榱俗龊眠@個輔助駕駛,,我們還做了操作系統(tǒng)。然后我們?yōu)榱俗鲚o助駕駛,,我們構(gòu)建了完整的訓練體系,,我們?yōu)榱俗鲚o助駕駛,甚至我們自己去直接去改芯片的,,然后這個底層的軟件,,對吧?然后我覺得我們做了很多這方面的這些工作,。然后那這方面工作肯定,,然后肯定做的比這個增程更多,比增程做的工作量更多,。然后我覺得還有一個比較好的一個評價方式,。就是我們歷史上從來沒有遇到過,然后任何一個周期,,比如2024年和2025今年年初,,我們每一個輔助駕駛團隊的核心人員可能基本上都會接到20個以上的獵頭電話。
53. 7月份是理想的十周年,,站在今天回顧理想這十年走過的路,,你腦海里浮現(xiàn)的最深刻的場景畫面是什么,?
我的第一個最重要的畫面,是2018年理想ONE第一次發(fā)布,,一直延續(xù)到2019年的4月份,,上海車展第一次正式的展示,帶有價格的,。我覺得那是一個非常重要的時刻,,我們真的能做出來一輛車,而且這個車特別受用戶喜歡,。在上海車展的展館里面,,我們是人流量最大的一個展臺。因為我們是從什么都沒有開始來做的,。另一個是2022年發(fā)布理想L9的時候,,我覺得那真的是一個全世界最卓越的產(chǎn)品。到了今天2025年,,能看到至少有5個以上的企業(yè)是因為當時理想L9的成功,,在打造跟理想L9相同的產(chǎn)品。
54. 你腦海里浮現(xiàn)的都是幸福的時候,,而不是痛苦的時候,。你會回憶到痛苦的時候嗎?
太多了,,剛經(jīng)歷了L9的幸福就出現(xiàn)了,。全網(wǎng)的黑公關(guān)都說理想汽車倒閉,那一個季度我們虧了十幾億,,將近二十億,,原來從沒虧過那么多。忽然從巔峰掉到谷底,,好處還是我說的,,我們認識到很多能力不足,我們就去補了很多能力,。但正是因為這件事情,,我們的調(diào)整又帶來了2023年獲得接近三倍的增長,我們直接做到了1200億的收入,。反正我創(chuàng)業(yè)那么多年了,,當問題來的很多時候,又是一個更大的機會的到來,。所以我對這方面其實也沒那么糾結(jié),。我對于不正常的事情耐受力很差,但我對于一些不好的東西解決完以后,,整個記憶能力也很差,,會把它忘掉,但你讓我回顧還是能回顧過來的,。
55. 刻意刪掉的記憶片段會是什么呢,?
為了讓自己有更好的正能量,我還是盡可能的只保留那些有價值,、美好的片段,。哪怕是一個不好的東西,比如剛才講的我們被黑,、被打擊,,我會轉(zhuǎn)變成“看,正是因為這件事情我們增長了三倍,,我們獲取了其他新勢力所沒有的能力,,我們面臨其他新勢力所沒有的挑戰(zhàn)�,!边@樣的方式來表達,,這是一種心態(tài)。創(chuàng)業(yè)確實不容易,,但是沒必要苦哈哈的,。苦和甜,。是一個硬幣的正反面,,取決于你選擇看哪一面。如果按時間軸而言,,肯定是苦更多,,但是吃苦多了也就習慣了。
56. 余凱博士(地平線創(chuàng)始人兼CEO)回憶跟你第一次見面是在杭州一起去爬山,,他記得你那天穿了一個軍大衣,。我很好奇余凱博士見到的那個軍大衣里包裹的是一個怎樣的靈魂?它跟今天發(fā)生了什么樣的變化,?
我覺得沒什么變化,。我甚至認為我今天90%的狀態(tài)、思維方式跟我上高中的時候差不多,。遇到問題去解決問題,、解決別人不愿意解決的問題、解決消費者遇到的最大的問題,、去找更多的人學習,。那時候我是個人網(wǎng)站站長,但是我又有合伙人,是少數(shù)的有小團隊的站長,�,?孔约耗芰Σ恍械臅r候還要靠別人,然后繼續(xù)完善能力,。我覺得到今天為止我沒變化,,只是解決的問題在變大、服務的用戶群體在變大,、公司的規(guī)模在變大,、組織在變大。
57. 過去十年中所有的記憶里如果能改變一個記憶,,改變一個程序,,你想改變什么?
我覺得沒什么要改變的,。能趕上這么一個時代,,幾次創(chuàng)業(yè)還能一路走下來,在最難的時候都有人來幫你,,當遇到問題的時候,,總是能從坑里快速爬出來,一幫人齊心竭力變得更好,,我覺得挺幸運的了,。無論是從運氣層面,還是從能夠創(chuàng)造出來的價值層面,,我覺得沒什么可后悔的,。挺好的。
58. 你剛才說一個詞是能量,,怎么讓自己成為一個更有能量的人,,更強大的人,或者是能吸引到更多能量的人,?
我覺得就是關(guān)注人,,尤其是關(guān)注那些離你最近的人,關(guān)注親密關(guān)系的人,。關(guān)注人的時候首先你得先關(guān)注自己,,作為我自己,我會怎么來看待自己,?第一,,我會接受自己所有的優(yōu)點。我很多身上的特質(zhì),,這么多年的積累,,從DNA里帶來的,,其實它就是我的優(yōu)勢,我應該怎么去發(fā)揚自己的優(yōu)勢,。第二個是要能接受自己的不足,。往往不足就是優(yōu)勢的另外一面。比如這個人很擅長決策,,他可能就沒有辦法其實去做很細致的運營,,因為這兩件事是沖突的。有的人非常擅長運營,,他可能就很難跳出來,或者跳好幾個維度來去做決策,。一個人很懶,,但可能是個極品的產(chǎn)品經(jīng)理,但如果他很勤奮,,應該是個非常好的業(yè)務運營,。我覺得每個人是不一樣的,往往我們?nèi)绻牡脑�,,會變成一個更差的別人,,以及一個更糟糕的自己。所以我說要接受自己的不足,。第三個是用成長替代改變,。更重要的是我有沒有成長,我們在做汽車之家的時候,,我說做好業(yè)務就行了,,資本根本不重要,最后我們其實折在了資本上,。
在做理想汽車的時候就非常注重資本,,請最好的FA(財務顧問),請最好的律所,,股權(quán)架構(gòu)的設(shè)計,、投票權(quán),今天大家可以看到所有的新勢力企業(yè)里面,,理想汽車的股權(quán)架構(gòu),、治理結(jié)構(gòu)、資本現(xiàn)金管理都是做得最好的,。我并沒有改變我的業(yè)務,,其實是增強了一個能力,所以它是個成長,。我們會面臨方方面面的能力成長,,就能給自己帶來能量。你的成長有自己的能量,然后你又不跟自己糾結(jié),,當有這個能力的時候,,我們再看待別人其實也是一樣,我會先看別人的優(yōu)點,,這非常重要,。這個優(yōu)點怎么讓他發(fā)揮出來?這優(yōu)點能帶來什么,?這優(yōu)點怎么讓他發(fā)揮,?我覺得第二個,其實當看到別人不足的時候,,其實根本不是問題,。我從創(chuàng)業(yè)開始就有合伙人。樊錚就是我的互補,,是我所不具備的,,秦致是我所不具備的,李鐵,、馬東輝,、謝炎、鄒良軍就是我所不具備的,。當看到大家這些不足的時候,,反而其實是我的價值,我有價值能幫助到他,,他有價值能幫助到我,,我覺得第三個一樣,去看別人的成長,,你能看到孩子的成長,,你能看到愛人的成長,你能看到身邊每個同事的成長,,其實這就有能量了,。
因為變好就有能量嘛。而且你關(guān)注的是人的成長,,不是那些事兒,。所以,第一你能自己產(chǎn)生能量,,第二你能夠帶給別人能量,,第三你能從別人那獲取能量,因為別人給你能量,,別人也不會丟掉能量,,它是個輻射作用,。所以這是我一些隨著自己的成長,開始有效的一些理解,。然后另外一方面其實很重要的是親密關(guān)系,,我覺得親密關(guān)系里邊特別重要的一點,是要關(guān)注人,,我需要我的愛人,,我需要我的孩子,我需要李鐵,、馬東輝,,我需要劉杰、解衛(wèi)國,、范皓宇,,甚至超過了他們需要我。首先是我需要他們,,才是他們需要我,這時候這些人之間的連接就不一樣了,,我們在一起就能形成一個非常強的腦力,、非常強的心力,形成特別好的能量,,我覺得這個是特別重要的,,而不是說我對他們沒有需求。
我覺得在我的家里非常有意思的一點,,過去我和我老婆之間的相互支撐還是有限的,,從去年年底春節(jié)過后一個最大的變化是我們家大女兒她形成了我們的第三個支撐。她14歲了,,她對事情的理解在發(fā)生巨大的變化,。她自己的三觀開始有效、特別完善地形成,,而且超出了我們的預期,。而且她有能力跟我們做特別好的溝通了,關(guān)于她自己的人生規(guī)劃,,她自己的喜好,,她自己對人和事物的理解,這個特別有意思,,我們家里實現(xiàn)了一個三人的支撐,,這是個讓家里的能量大幅地提升。因為這些能量會影響到其他的孩子,,雖然他們還沒有辦法做成支撐,。我每次跟我老婆聊,,在聊到大女兒的時候都是非常的高興,就沒想到她14歲就能和我們兩個人形成一個三人的支撐了,。
我們能跟她一起去討論很多問題了,。我們可以討論事情,可以討論人,,可以討論不同的見解,,也可以討論她的規(guī)劃,可以討論怎么出去玩,,可以討論家里要解決一些什么問題,,都可以的,我覺得這個特別好,。
59. 我之前跟一個教授聊天啊,,他說他幾年前跟你聊過,然后感覺你的心靈觀就是家庭觀,,這個也反映到你的公司上,,要創(chuàng)造幸福的家。那他想問的是你有沒有更大的宇宙觀,、世界觀,?
我們從人出生開始,我們上學到大學畢業(yè)到開始工作,,我們有多少自己想去做的事情沒有去做,?我們有多少想接觸的萬物沒有去接觸?我每天都在忙著去工作,,去在做事兒,。嗯,對,,但什么是智慧呢,?智慧就是我們跟萬物的接觸。
如果你沒有去過森林,,沒有在森林里,,認真的玩兒、住過幾天,,那你可能覺得木頭就是做筷子的,,就是做紙的,就是做桌子的,,而并不是意味著它是一個生命,,它是跟我們不同的生命,對吧,?你不能沒有跟孩子在一起,、長時間的生活體驗跟他們一起去玩,,你可能就不知道什么是親密的關(guān)系,你就沒法真正的去理解孩子,,去了解孩子,,對吧?那我覺得什么是智慧,?我覺得智慧就是我們和萬物的關(guān)系,。但是怎么去提升我跟萬物的關(guān)系?首先要有足夠的時間跟萬物去接觸,。所以我在講的一個很重要的一個問題,,就是今天我們很卷,但是我覺得這是恰恰是真正的人工智能的意義,。
60. 在AI面前,,什么是值得被保留的人性?
我覺得所有的人性都應該得以保留,。對,,然后無論是好的和壞的。
61. 為什么呀�,�,?為什么要好把我的壞的(保留下來)。
就沒有壞的,,其實就沒有好的。那就跟剛才我講的一樣,,就是說一個人的優(yōu)點的另外一面,,其實就是它的缺點,對吧,?然后一個好的另外一面其實就是它的不好,。對,以后我們?nèi)绻幌胍玫臇|西,,而這個說我只想要好的東西,,但放棄所有不好的東西。對,,我覺得這件事情并不成立,。對,所以你可以把好的東西和不好的東西都當成一種特質(zhì),。對,,然后它是文化的特質(zhì),然后它是生命的特質(zhì),,它是性格的特質(zhì),,它是能力的特質(zhì),。對,我覺得這個其實這樣的,,這樣我覺得才是活生生的,,才是一個有生命力的世界,才是活生生的人,。(編譯/汽車之家 秦超)
好評理由:
差評理由: