[汽車之家 資訊] 12月26日,,理想汽車CEO李想和智駕負責人郎咸朋在直播中講解了理想汽車在智駕方面的發(fā)展動向。理想汽車將在12月31日全量推送OTA 7.0給AD Max用戶,。按照理想現(xiàn)在的端到端+VLM體系繼續(xù)迭代,,有望在2025年實現(xiàn)L3級自動駕駛,其中一些重點的信息如下,。此外,,李想在前一天的直播中宣布了理想將轉型成為人工智能企業(yè),具體信息可點擊鏈接查看,。
● 端到端的智駕表現(xiàn)將優(yōu)于現(xiàn)在的所有智駕軟件,,理想已經(jīng)為端到端做好了準備
理想智駕負責人郎咸朋表示,端到端一旦做出來,,會比現(xiàn)在所有的智能駕駛軟件都要好,,去年不上端到端是因為在等足夠的數(shù)據(jù)和算力。端到端VLM大模型其實最終的本質(zhì)是用人工智能來做自動駕駛,,人工智能的三個要素:算法,、數(shù)據(jù)和算力,這三個要素必須全都齊備,。理想今年已經(jīng)在這三個方面做好了準備,,理想AD Max車型的(高質(zhì)量訓練)數(shù)據(jù)量達到10億(公里) 左右規(guī)模,算力達到了5EFLOPS,,并且端到端的一些預研也有一定成果,。
● 理想汽車保留激光雷達,是為了安全考慮
理想汽車CEO李想表示,,保留激光雷達還是為了安全,。特斯拉選擇了純視覺,但是中國和美國是不一樣的,,夜里可能會有尾燈壞了的大貨車,、甚至可能尾燈壞的大貨車會直接停在主路上,攝像頭能夠在深夜里沒有光線下看到的距離其實只有100米出頭,。 而激光雷達在沒有任何光線的情況下是可以看到200米的,,這就可以實現(xiàn)130公里/小時的AEB自動緊急制動,帶來更高的安全性,。
● L3或者有監(jiān)督智能駕駛不是L2的延續(xù),,而是L4的先導
理想智駕負責人郎咸朋表示,自動駕駛是能力,、輔助駕駛是功能,,功能是預設條件,能力是應對所有條件。如果還是用上一代軟件1.0方案來做自動駕駛,,在研發(fā)之初,,就要清晰地設定所有條件、所有邊界,,以及最終確定性的結果,,這在自動駕駛里是非常困難的,。用人工智能的方式來做自動駕駛,,是從最本質(zhì)思考人是怎么學會開車的。最開始人去駕校學習,,掌握基本駕駛技能再考試,。考完掌握基本能力之后,,作為實習司機一邊實踐一邊提升能力,,慢慢地成長為老司機。系統(tǒng)1+系統(tǒng)2的方案,,是讓自動駕駛系統(tǒng)擁有這種能力去迭代和成長,,隨著數(shù)據(jù)量的增長,慢慢地性能隨之提升,。
● 智能駕駛對于理想的銷量有非常好的促進作用
從實際銷量表現(xiàn)來看,,2024年智能駕駛確實對于理想的銷量有非常好的促進作用。理想2月AD Max的交付量占比只到20%左右,,到下半年已經(jīng)超過50%,。早期用戶認為自動駕駛是一個功能,跟座椅加熱沒有大的區(qū)別,,并沒有解決用戶日常出行的舒適性,。而現(xiàn)在理想用AI來做自動駕駛,端到端+VLM能夠真正解放用戶長時間的駕駛疲勞,。
● L4級自動駕駛是決定勝負的關鍵點
李想認為,,L4級自動駕駛會是決定勝負的關鍵點。端到端只能解決L3,,解決不了L4級自動駕駛,。掌握L4首先需要500萬輛以上的車跑在路上收集數(shù)據(jù),第二需要掌握VLA(視覺語言行動模型)這個基礎模型,,第三要有足夠多的錢去招募最頂級的人才,,以及足夠的算力。
直播問答全文如下:
01.理想智駕一號位的職業(yè)危機
張小珺:聽說李想對智駕發(fā)了很大的火,,你怎么還能留在這,?
郎咸朋:當時想哥說了一句很狠的話,他說郎博下半年如果我還看不到變化,咱們還是拿不到頭部位置的話,,那你這個負責人就可以不用干了,。
張小珺:那次發(fā)火完之后達成了什么結果?
郎咸朋:我覺得大家就回歸的是體驗和用戶價值,,重新把大家的思路聚攏了,。我們是給用戶做一個有更好體驗、更安全,、更便捷的產(chǎn)品,,而不是說做一大堆什么從指標上看起來挺好的產(chǎn)品。那次所有人心里邊又重新回到從產(chǎn)品出發(fā)去做智能駕駛,,這是我覺得印象最深的一點,。
張小珺:你們是那次之后開始轉的端到端嗎?
郎咸朋:其實在想哥發(fā)火之前,,我們內(nèi)部的這個端到端的預研,,已經(jīng)在開展了。那么從那一刻開始,,我們端到端的速度就加快了,。
張小珺:第一次試駕端到端是什么樣的體驗?
郎咸朋:我第一次試到這個車,,從中關村開到了北京交通大學,。開了幾公里我就問旁邊的賈鵬,這是規(guī)則還是怎么做的,?怎么我覺得開得這么好呢,?他說一句規(guī)則都沒寫,全都是系統(tǒng)按照咱們給它的數(shù)據(jù)自己訓練出來的,。
咱們開車都知道,,如果前面有個車剎停的話,它是要緩慢減速,,甚至還再抬起一點剎車,,有這樣非常舒適的剎車過程。這個過程我們團隊在規(guī)則階段寫了很長時間的代碼,,都沒有達到一個完全擬人,、解決所有場景的表現(xiàn)。
但我第一次試駕端到端,,它的縱向就已經(jīng)比之前試過所有的都要好的狀態(tài),,這才用了短短不到15天。所以我覺得那時候建立了一個信心,,就是端到端一定能做出來,。而且一旦它做出來,,就一定會比現(xiàn)在所有的智能駕駛軟件都要好。
張小珺:既然端到端是靈丹妙藥,,為什么去年不上,?特斯拉去年就上了,你去年在干嘛,?
郎咸朋:我們在等,等足夠的數(shù)據(jù)和算力,,等到了我們就能上了。
端到端 VLM大模型其實最終的本質(zhì)是用人工智能來做自動駕駛,。人工智能的三個要素:算法,、數(shù)據(jù)和算力,。這三個要素必須全都齊備。我們是今年是準備好了,,所以我們能做這個事情,。
理想AD Max 車型的銷量,去年起來了之后到今年初(高質(zhì)量訓練)數(shù)據(jù)量達到10億(公里) 左右規(guī)模,,這是一個基礎,。第二是算力基礎,今年初我們算力也到了5EFLOPS,。再加上第三步,,就是端到端的一些預研也有一定成果,所以到今年初是天時地利人和,,可以做這個事情了,,去年我們還在補課的一個過程。
張小珺:為什么很多企業(yè)的端到端是兩個模型,,而不是One Model,?
郎咸朋:這個是算法和理念的問題。我們要做端到端時就給自己定了一個目標,,一定要用純數(shù)據(jù)驅動的方式來做這件事情,,而不是結合了之前的規(guī)則來做,所以說它的性能上限會非常高,。
張小珺:為什么理想是端到端+VLM,,不像特斯拉只用端到端?你們對自己的端到端不夠自信嗎,?
郎咸朋:不能這么講,,我們在做技術方案時充分參考了世界上所有的先進方案,,但始終無法解決一個問題是,當一套自動駕駛或智能駕駛系統(tǒng),,它工作時如果遇到之前沒有見過的場景,,應該怎么處理?我們認為就是端到端+VLM,,就是系統(tǒng)1+系統(tǒng)2的方式,,很好地模仿人類大腦的工作方式。
張小珺:如果智駕一號位想要推動智能駕駛的投入,,老板會成為阻力嗎,?
郎咸朋:沒有,反而李想一直在催促我:郎博,,咱們自動駕駛怎么還是慢了,?趕緊加快速度!
02.要么就做端到端,,要么就不再做自動駕駛,。
張小珺:特斯拉沒有用激光雷達,你們?yōu)槭裁匆茫?/strong>
李想:很多人不太理解說:為什么要保留激光雷達,,還是為了安全,。是不是因為你技術不好?不是,,中國和美國是不一樣的,,如果你經(jīng)常在中國晚上夜路開車,你會看到有尾燈壞了的大貨車,、甚至可能尾燈壞的大貨車會直接停在主路上,,至少我們今天的攝像頭,能夠在深夜里沒有光線下看到的距離,,其實只有100米出頭,。
但是激光雷達,,在沒有任何光線的情況下是可以看到200米的。這就可以幫助我們實現(xiàn)130公里/小時的AEB自動緊急制動,。那我覺得這個是非常重要的,,因為我們是個面向家庭的車,每個人生命安全都非常的重要,,所以這是我們繼續(xù)保留激光雷達根本所在。而且后邊的車型仍然會保留,。我相信如果馬斯克在中國,,在深夜里不同的高速開過車,,他也會選擇把前面的一顆激光雷達保留下來,。因為特斯拉對于安全同樣地重視,只是他要在這個環(huán)境里來看到,。
張小珺:理想激進的用只有一個模型的端到端,,其他車企還在用兩個模型,為什么,?
李想:很多時候可能跟我們有一些比較好的外腦有關,,像王興、陸奇博士,,他們會給我們帶來很多啟發(fā)。有一次陸奇博士跟我們講,,你們應該思考一下人是怎么工作的?我覺得這個當時對我們幫助很大,。
今年初我還逼著智駕團隊去美國,,他們在不同的城市開FSD V12。另一方面我們研究工作也在進行,,那時已經(jīng)在發(fā)端到端+VLM的各種研究論文了,。回來以后我覺得要么你做這個,要么我們就不要再做自動駕駛了,。今天你靠這些規(guī)則上來做的,,跟請個供應商做出來的東西有啥區(qū)別?沒有啥區(qū)別,。
我說服郎博他們很重要的一點,,我說你們經(jīng)常解決了一個Corner Case(極端情況),又出現(xiàn)三個其他的Corner Case,。你們一輩子都在解決Corner Case,,解決不完。
張小珺:所以其他人不轉,,是因為他們Corner Case解決得比你們好,?
李想:有些企業(yè)Corner Case確實解決得比我們好,,因為他會招很多的人,5倍,、10倍的人,,然后一個路口一個路口去解決。不但解決規(guī)則算法的Corner Case,,甚至還自己有地圖,,去修地圖的Corner Case。
張小珺:過去兩年在人工智能上,,你有什么哇塞Moment嗎,?
李想:ChatGPT 肯定是了,其次我們內(nèi)部還是有很多“哇塞”的,。一個印象最深的是,,我們決定啟動端到端并匹配好資源,準備好200人團隊,,他們訓練了幾十版模型,,第一版放到車上,當時郎博讓我們來試,,我跟張穎(經(jīng)緯中國合伙人)在北京研發(fā)總部正好就一起試了,。張穎坐主駕我坐副駕,當時我就很驚訝:這一個月的訓練,,比過去三年做的東西,,進步速度要快!
張穎之前試過無圖NOA,,當他試到端到端時發(fā)現(xiàn)這跟人很相似,,甚至在一個路口,旁邊有輛車為了躲行人往我們這邊躲時,,這個車也適時地避讓了,。他問為什么能躲那么快?我說端到端響應速度快了好幾倍,,因為他是個One Model,,而不是經(jīng)過4個步驟。
我們下一個大版本更新時,,用戶可以在車上直接很清楚地看到端到端的工作方式是什么樣的,,視覺語言模型工作方式是什么樣的,以及人工智能到底是怎么工作的,。
03.有監(jiān)督智能駕駛不是L2的延續(xù),,而是L4的先導。
張小珺:大家都說理想做智駕是投入最晚最慢的,,你怎么看,?
郎咸朋:2018年1月我加入理想時,,跟李想討論過這個問題。什么才是決定最終智能駕駛或自動駕駛實現(xiàn)的最關鍵因素,?我們當時聊的就是數(shù)據(jù),。人才可以流動、算法可以提升,、算力也非常重要,,但是只要有健康的資金、合理的資金使用也是能買得到的,。
那么最重要就是數(shù)據(jù),,數(shù)據(jù)它是買不到的,必須自己有這樣一個非常高質(zhì)量,、規(guī)模非常大的數(shù)據(jù),,才可以做好自動駕駛。所以我們要按照節(jié)奏來做自動駕駛,,剛開始我們要先把車造好,、把車賣好,然后積累更多的資金,、人才和數(shù)據(jù),,到了一定時間點再大量投入,去達到更好的自動駕駛的效果,。其實從現(xiàn)在結果上也是能看出這一點的:我們自動駕駛的節(jié)奏是非常好的,。
張小珺:什么時候理想意識到,智駕對于賣車是有幫助的,?
郎咸朋:從實際表現(xiàn)來看是從今年開始的,,今年智能駕駛確實對于銷量有非常好的促進作用。我們2月AD Max的交付量占比只到20%左右,,然后到今年下半年超過50%了,這是實打實的業(yè)績,。早期大家認為自動駕駛是一個功能,,它跟座椅加熱沒有大的區(qū)別,并沒有解決用戶日常出行的舒適性,。直到現(xiàn)在我們用AI來做自動駕駛,,端到端+VLM真正解放用戶長時間的駕駛疲勞。當我們能達到綜合MPI(城市+高速綜合接管里程)100公里,、幾百公里時,,大家就真正愿意為自動駕駛買單了。
張小珺:理想提出有監(jiān)督智能駕駛,,跟自動駕駛L1到L5傳統(tǒng)分級有什么區(qū)別,?
郎咸朋:這里面其實體現(xiàn)我們對自動駕駛研發(fā)的思路差別,。之前很多人認為L3自動駕駛是L2輔助駕駛的延續(xù),只要把L2輔助駕駛的場景越做越多,,總有一天能無限趨近于L3,,甚至可能就能夠做到L3。
但在我們看來,,L3或者有監(jiān)督智能駕駛,,它并不是L2的延續(xù),而是L4或者自動駕駛的先導程序,。實際上我們是錨著未來的自動駕駛能力去研發(fā),、去成長和迭代的,而不是沿著過去一套用L2的思路,,去做現(xiàn)在的自動駕駛,。
張小珺:你說自動駕駛是能力、輔助駕駛是功能,,兩者本質(zhì)區(qū)別是什么,?
郎咸朋:功能是預設條件,能力是應對所有條件,。你不可能窮盡所有的預設,。
功能的話,還是用上一代的這種軟件1.0方案來做自動駕駛,。最大的問題是在研發(fā)之初,,就要清晰地設定所有條件、所有邊界,,以及最終確定性的結果,。這在自動駕駛里是非常困難的。
能力的話,,是用人工智能的方式來做自動駕駛,。當我們把自動駕駛當成能力來開發(fā),從最本質(zhì)思考人是怎么學會開車的,。最開始人去駕校學習,,掌握基本駕駛技能再考試�,?纪暾莆栈灸芰χ�,,作為實習司機一邊實踐一邊提升能力,慢慢地成長為老司機,。我們系統(tǒng)1+系統(tǒng)2的方案,,讓自動駕駛系統(tǒng)擁有這種能力去迭代和成長,隨著數(shù)據(jù)量的增長,它會慢慢地讓性能隨之提升,,這個就是大家經(jīng)常說的規(guī)模效應,。
張小珺:你們驗證了自動駕駛的規(guī)模效應嗎?
郎咸朋:我們已經(jīng)驗證出來了,。這不是我們發(fā)明的,,所有的大模型應用都符合這種規(guī)律,也就是說數(shù)據(jù)規(guī)模和數(shù)據(jù)質(zhì)量的增長,,會帶動性能的增長,。而且性能增長是接近于線性的,這就是我們用大模型最本質(zhì)的好處,。
張小珺:有監(jiān)督智能駕駛階段,,理想交付給用戶的產(chǎn)品長什么樣?
郎咸朋:全場景的,、一體化端到端產(chǎn)品,。要想實現(xiàn)有監(jiān)督智能駕駛,一個前提是實現(xiàn)車位到車位,,也就是解決最前面一百米和最后面一百米,。以前智駕是從干道開始,現(xiàn)在可以從小區(qū)車位開始,,然后包括園區(qū)道路,、泊車、城市道路,,還有高速和收費站ETC都會全部打通,。
高速城市全場景升級端到端+VLM,以及創(chuàng)新的AI推理可視化的交互,,將在近期隨OTA全量推送給所有的AD Max用戶,。
張小珺:L3什么時候實現(xiàn)?
郎咸朋:按照現(xiàn)在的端到端+VLM這套體系,,能力繼續(xù)迭代的話,,我們是有希望在2025年去實現(xiàn)L3的。
張小珺:面對李想年初對于智駕的發(fā)火,,你的職業(yè)危機是什么時候解除的,?
郎咸朋:我覺得到現(xiàn)在還沒解除,因為還沒有做到極致,。我們的目標是今年綜合MPI(城市+高速綜合接管里程)做到100公里接管一次的能力。這個接管不是安全接管,,不是說你要撞車了才接管,,是用戶覺得車開得不符合體驗、不舒服的接管。到明年,、后年,,我們會逐漸提升至500公里、甚至1000公里以上,。慢慢讓大家對智駕越來越自信,、越來越依賴。
張小珺:要實現(xiàn)這樣的目標,,需要儲備多少算力和數(shù)據(jù),?
郎咸朋:要達到500公里的綜合MPI(城市+高速綜合接管里程),預計需要2000萬Clips(視頻片段)的水平,。如果2000萬Clips從不到5%的老司機去篩選,,這里隱含的數(shù)據(jù)量,要達到50億公里甚至上百億公里的水平,。
04電動車這場仗什么時候能分出勝負手,?
張小珺:你現(xiàn)在開車智能駕駛占比是多少?
李想:大概80%左右,。
張小珺:剩下的20%是因為你們技術不夠行嗎,?
李想:最主要是我趕時間。
張小珺:端到端是自動駕駛的制勝法寶嗎,?
李想:我覺得端到端只能解決L3,,解決不了L4。
張小珺:什么時候可以100%用自動駕駛,?
李想:給我三年的時間,,它需要技術到位,也需要產(chǎn)品到位,,也需要一些環(huán)境和政策到位,,也需要消費者對于人工智能的信任到位。
張小珺:電動車這場仗什么時候能分出勝負手,?
李想:現(xiàn)在中國的汽車仍然非常內(nèi)卷,。電動化和智能化是兩場仗,電動化其實是相當于是一張門票,,我認為L4會分出來真正的勝負,。但是我們今天在做的所有事情,是為了L4拿門票,,因為L4所需要花的錢,,所需要擁有的能力,所需要的數(shù)據(jù)量,,是今天所不具備的,,所以今天大家要靠這個東西去拿L4的門票,。
張小珺:拿L4的門票需要什么條件?
李想:足夠多的車跑在路上,。
張小珺:多少車,?
李想:得500萬輛以上。第二你要真的自己掌握VLA(視覺語言行動模型)這個基礎模型的能力,。第三,,你要有足夠多的錢去招募最頂級的人才,以及足夠的算力,,有這三個條件,。
張小珺:當滿足這些條件且做到足夠優(yōu)秀時,能做出一家像蘋果這樣的公司嗎,?
李想:一定會的,,一定會的。(編譯/汽車之家 顏歡)
好評理由:
差評理由: