[汽車之家 資訊] 日前,,極越汽車舉辦了“汽車機器人進化日”超前體驗活動,。極越數(shù)字產(chǎn)品負責人潘云鵬;百度自動駕駛技術負責人/百度IDG技術委員會主席王亮,,將針對此次OTA升級計劃以及最新技術進展做出分享,。具體信息如下:
潘云鵬:非常榮幸,,能和大家一起分享一下V1.3.0、1.3.1軟件關鍵內容,。我們在軟件迭代方面,,積極聽取用戶意見,在新浪微博上還專門有這么一個熱詞#極越聽勸,。我們基本上一直保持這個人設,,我們的整體軟件迭代邏輯有一個核心點,就是通過SIMO來獲取用戶反饋,,一共得到將近12000多條反饋,每天有大幾百條反饋給數(shù)據(jù)庫里灌,。
用戶反饋
第一個階段已經(jīng)過去,,無論在車展上拉橫幅、400投訴電話,、微博找CEO,,用戶都處在非常弱勢,非常無助的情況,,不知道該怎么做,,車企也不太很清楚怎么樣才能拿到用戶最真實的反饋。
極越汽車解決了這個問題,,從公司創(chuàng)建的時候開始,,直接進入2.0時代,用SIMO專屬客服作為橋梁,,每當大家覺得有問題的時候,,就說SIMO我要反饋問題,無論是收集到產(chǎn)品建議,,還是吐槽,,還是對誰的建議,我們都可以直接收到,,并且我們的后臺有自動分發(fā)系統(tǒng)標簽,,直接到“罪魁禍首”(工程師)的手里。
2024年我們已經(jīng)升級到了3.0,,融合大模型能力,,做到更快速的反饋。因為現(xiàn)在每天反饋量太多,,人工處理的邊際成本特別高,,所以融合大模型的能力,現(xiàn)在會做自動診斷,,自動判斷,,也會在用戶吐槽的時候第一時間給到用戶解法,。
之前發(fā)過一個視頻,有一個比較直觀的例子,,只要說SIMO我要反饋,,我們的用戶APP可以以秒級的速度收到一條問題,然后開始處理,。這是內部的群,,包括各個團隊一級部門負責人都在里面,實時收到,,包括所有需要解決問題所需的lock都會在里面,。從用戶側收到的反饋,最終吐槽得對,,屬于比較好的產(chǎn)品建議,,或者是比較好的產(chǎn)品問題,我們會給予50積分獎勵,。我們這套機制運轉了很長一段時間,,基于這個體系幫助我們迭代我們的軟件。
我們一共收到12584條反饋,,在1.3.0和1.3.1的版本上有60%的問題已經(jīng)得到解決,,平均處理時長小于1天。問題過來后,,從工程師實時看這些問題,,并分析這些問題,小于24個小時完成反饋,。在用戶比較關注的幾大類反饋問題中,,智艙智駕占30%,產(chǎn)品建議占20%,,其他問題,,其他功能軟件占20%。比較多的例子,,車主比較共鳴,,不清楚轉向燈怎么用,PPA怎么開啟,,定位會飄,,娛樂功能少,APP覺得不夠豐富,,藍牙鑰匙離車落不了鎖,,或者進車解不了鎖。我們在1.3.0和1.3.1針對這些問題得到了解決和優(yōu)化,。
軟件1.3.0和1.3.1版本的主要功能
智艙主要分幾部分,,第一部分更多是U型方向盤,,之前是圓型,我們做這款產(chǎn)品的時候這款產(chǎn)品發(fā)現(xiàn)U型方向盤有更好的視野,,這次U型方向盤大家可以感受到駕駛,,3D地圖的體驗有了質的飛躍。
第二個轉向燈,,我們認為在自動駕駛或者人動手開的時候,,可以通過算法,盡量不需要手動開啟轉向燈,,在1.3.0版本里無論在變道還是轉彎,,已經(jīng)不需要再關閉轉向燈,這個功能已經(jīng)上線了,。1.4版本里,,我們通過你的意圖,我們主動打起轉向燈,,在1.4的版本里會做。
接著是換擋,,很多用戶覺得換擋的時候容易手滑,,滑不到位,現(xiàn)在可以“點擊換擋”,,輕輕一點,,極速換擋。換檔會做成自動化,,判斷前車和后車相對位置,,包括通過上次行車的行為,判斷出自動前進或后退,。
SIMO文心一言
SIMO文心一言的能力,,我們在之前版本里文心一言是集成進去了,是需要特地的說聊天或喚起文心一言進入文心一言的空間�,,F(xiàn)在文心一言是原生集成到SIMO能力里,,并不需要刻意的來講(喚醒),我要調動起文心一言的哪些能力,,它可以根據(jù)你的說話內容自動的幫助你完成這些任務,。
這是一個視頻,(#SIMO從可見即可說到可說即可做),。還可以有更多的場景延展,,包括問SIMO現(xiàn)在最熱門的電視劇有哪些。比如《繁花》《三大隊》,,立馬說SIMO我要播放《三大隊》或者《繁花》,,基本能夠實時播放,,在SIMO大模型領域和娛樂域能做到比較好的切換。這是關于座艙部分的更新,。
OCC技術用戶體驗
現(xiàn)在一共有三代,,第一代是單目DNN感知網(wǎng)絡環(huán)視后融合,2.0大家遇到比較多的BEV+Transformer時空融合,,極越汽車是唯一一家能夠做BEV+OCC+Transformer多任務統(tǒng)一網(wǎng)絡的企業(yè),,我們給它起了一個名字,BOT,,也是機器人的概念,。本質上,是想說我們是超高精度體素,,甚至小于厘米級,,由過去BEV2D變成3D,來判斷駕駛空間里是否被占用,。超直覺,,之前需要判斷前方是人是車還是什么東西,現(xiàn)在基本上認為前方有一個物體,,和開車的時候很像,,通過直覺繞開它,而不需要通過思考,。
這是三個在1.3.1的時候比較關鍵的場景,,遇障剎停,第二個遇到障礙物無感繞障,,提前規(guī)劃,,到障礙物可以跨車道繞開。另外是遠離硬隔離,,它會在你離水馬硬路很近的時候適當遠離,,給大家很足的安心感,這種場景在匝道上大家感受很明顯,。
PPA我們做了很多細節(jié)上的提升,,PPA之前大家覺得變道比較保守,現(xiàn)在比較自信,,在一些需要判斷要不要變道的路況中,,我們不會來回的猶豫。第二,,有一些更加靈活的變道或者通行策略,,比如公交車道在可以行駛的時間段,我們可以借用公交車道進行通行。包括黃虛線借道上有更加靈活繞行策略,。
無感區(qū)域,,繞過路障、以及過路障已經(jīng)提到了,,主要是基于OCC能力,。在一些小路上,導航地圖如果有一些信息不是夠完整,、準確的時候,,我們能夠更加從容的通過這些路段。在這個圖上沒有展示的,,或者對比之前地圖有很大量的變道,,大家可能覺得不知道為什么變道、剎車,,我們會告訴大家為什么變道,,有時候因為超車,有時候因為避障,,有時候因為匝道到了,,有時候因為導航路徑規(guī)劃的原因,這些東西都在這個版本上給大家做了提升,。
我們在今年年底,,除了上海以外,北京,、杭州、深圳,,開了大量的城區(qū)路寬,,而不是開一條路,是真正做到把路連成網(wǎng),,讓它有連續(xù)性,,用戶可以從A點到B點實現(xiàn)智駕通勤。我們認為只有做到60%-70%的用車場景和90%以上高頻場景的覆蓋才能叫真正的開城,。2024年會完成200+城市的城區(qū)道路,,我們會采取通勤+輕圖的模式。
視覺系統(tǒng)
我們一直說汽車機器人,,我們認為視覺不僅僅用在自動駕駛身上,,我們認為視覺(系統(tǒng))可以用在更多的通用任務,比如開門剎,、燒餅模式,、更精準路況識別、透明底盤,,大家在1.3版本上都能感受到,。
泊車我們做了算法的升級,,我們自動APA滲透率比較高,達到96%,,成功率88%,,算法重寫之后,平均可以減少20-30%的時間,,斷頭路和極窄車位提升25%的成功率,,斷頭路比較極端的場景,我們測試下來,,有將近一倍容錯次數(shù)的減少,,也是比較大的升級。
安全方面
后面是關于安全上的更新,。我們是電動門,,大家會擔憂電動門,在車輛沒電的情況下,,是否會有打不開的情況,,我們有有專門獨立電源,專門應對電動門的場景,,電動門會在碰撞的15秒保持關閉,,這樣避免司機或者乘客被甩出去,進行二次傷害,。最后是1.3版本更新上的,,我們有一個救生門模式,借助破冰模式,,在冬天的時候,,破冰的場景上,我們應用到碰撞場景上,,可以用一百斤力量把車門頂開,,保證乘客在事故之后的安全,得到安全的救助,。
娛樂方面
娛樂進化,,大家一直吐槽APP太少,這次加入了B站,、云聽,、小宇宙,后期大家可以期待一下,,我們很快會加速APPStore的建設,,會有更多第三方的生態(tài)APP接入進來。還有switch投屏,可以在車內通過轉接頭進行投屏,,進行游戲,,除了抽煙以外,又多了一個回家在車上多待一會兒的理由,。車載KTV方面,,我們在商城上架了相應的麥克風等硬件,可以在車上和朋友進行K歌,。
體驗方面
最后一個是體驗進化,,冬天充電速度,座艙預熱,,破冰門,,雪地脫困,這次上了APP,,會有座艙預約加熱功能,,電池預熱,特別是磷酸鐵鋰電池在比較低溫情況下,,為了保持化學上的活性,,我們可以為電池進行提前加熱,使得車輛得到了充電站之后,,充電效率和充電速率可以得到提升,,這是電池預熱的功能,在1.3版本里已經(jīng)加入,。對于performance版本車型,,會有雪地模式,讓大家在雪地下有比省心的駕駛體驗,。
在一萬兩千多條的反饋下,,包括哨兵模式,大家吐槽有誤報,,PPA開啟后為什么車輛變道,,3D地圖下,,紅綠燈,,轉向燈,大家覺得聽不到,,特別開音樂的時候轉向燈聲音太小,,我們比較聽勸,都做了調整,。
手機和藍牙實時音頻,,以前大家連接到手機上以后,播放手機上的媒體,之前要手動切換到手機藍牙才能播放,,現(xiàn)在手機實時藍牙檢測,,它可以在你想播放手機,比如微信,、抖音多媒體信道可以自由的進行切換,,播完之后自動切換車內通道。舒適進出是用戶投訴反饋比較多的,,座椅沒有恢復到已有的位置或者記憶位置,,以及記憶位置不準確,我們在1.3.0和1.3.1都有優(yōu)化,。
技術上OCC怎么實現(xiàn)的,?
王亮:各位媒體朋友,各位集度同事大家下午好,!很榮幸收到邀請,,過來跟大家做技術層面的交流。今天分享的題目Vision Takes All,,有一個副標題,,用AI原生思維重構自動駕駛視覺感知技術,這里有一些詞解釋一下,,英文這個詞代表什么,?這是我們內部的愿景,我們希望是用純視覺,,#用一個視覺大模型去Takes All,,英文翻譯過來是“通吃”,我們希望解決所有自動駕駛感知相關的問題,,用純視覺大模型做,。副標題里,AI原生思維,,是什么概念,?這在百度內部被提的比較多的概念。
我說一下我的理解,,什么是好的AI原生思維,,在今天大模型時代大數(shù)據(jù)時代,我舉一個很好的例子,,極越語音設計就是非常AI原生思維的產(chǎn)品設計,,我認識的人,包括我,,開車久了之后,,不會再找車上按紐,,所有事情很自然的通過語音交互去完成。
如果從算法上講,,舉一個例子,,趨勢是什么?都是從規(guī)則到多模型多任務,,再到模型的聚合,,大模型,多任務的過程,,比如我們原來判斷會不會有車輛,、會不會加塞,最早會有每個時刻的障礙物擬合加軌跡,,看看和前行的軌跡會不會有交叉,,都可以靠數(shù)學計算幾何計算做判斷。第二步可以做模型判斷,,可以學車輪子,、學車燈、學車道線,,這三個模型輸出的結果,,能更好更準確的判斷,這個車會不會對我們進行加塞動作,。到今天會怎么做,?我們把所有的小模型都去掉,我們用連續(xù)幀視頻的信息直接判斷會不會加塞,,這也是一種在算法層面AI原生思維的體現(xiàn),。
分享第一部分,很多人會問,,媒體朋友也會感興趣,,為什么極越高階智駕PPA選擇用純視覺做?有很多人問,,為什么不用激光雷達,。馬斯克說人類沒有主動的測距能力,兩個眼睛就能開車,,AI也可以,。激光雷達是比較昂貴的,雖然現(xiàn)在降本大潮下,,價格不斷的往下打,,但是我可以很確定的說,,它的器件和成像原理在這里,,再怎么降本,,它的成本也會是相機的5-10倍。激光雷達是很精密的光學測距儀器,,里面有很多移動部件,,這種部件有很高概率會出現(xiàn)可靠性問題,會帶來售后問題,。
第四點,,我們也有毫米波雷達、超聲波雷達,,它們原理差不多,,可以做很多激光雷達做的工作,但是不管激光雷達還是毫米波,、超聲波,,他們都代替不了相機。最后更專業(yè)一點的算法同學會有感觸,,激光雷達也不是一個完美的系統(tǒng),,它會有偽影,消除偽影的影響也是非常難做,,非常痛苦的過程。這都是大家耳熟能詳?shù)脑颉?/p>
我們日常的演進迭代速度等于什么?(初速度+加速度)×時間,,跟時間相關的是加速度,。初速度很重要,這是算法從0到1的階段,,也是激光雷達最大的優(yōu)勢,。2017年左右很多創(chuàng)業(yè)公司可以在三個月可以在城市里把激光雷達的自動駕駛方案demo跑出來,為什么這么快,?他們不用深耕嗎,?如果有很好的工程師,利用激光雷達直接提供的三維信息,,可以不需要那么強的算法,,就能把這個事情跑起來,沒那么難,。但是在視覺方案這邊,,視覺初速度很慢。從Mobileye做了25年的視覺方案,,就能發(fā)現(xiàn)這個事情足夠難,,這也是Mobileye CEO講這是他們?yōu)槭裁创嬖诘睦碛伞L厮估鞘裁磿r候,?2015年和Mobileye分手之后自己開始組團隊,,自研純視覺的方案,,到今天也有八年多的時間,百度的視覺方案在2019年正式開始進行高強度嘗試,,當時通過小的項目,,在Apollo Lite上做了開始,到和極越合作過程中,,已經(jīng)開始算完成從0到1的進化,。加速度和什么相關?在這個大模型時代,,OpenAI有很有名的文章,,Scaling Laws for Neural Language Models,這里提了一個結論,,整個模型的迭代速度跟三件事情相關,,模型的參數(shù)量、數(shù)據(jù)的規(guī)模,、訓練算力,,這三者相輔相成,決定了模型的質量,。論文告訴我們在今天技術時代,,我們要把能力上限做上去,迭代的更快,,需要關注模型大小,,訓練的質量,還有超強算力,。
模型怎么做大,?
車上如果一堆小模型都在跑各自任務,不可能把單一模型做特別大,,所以我們一定要合并,,減少激光雷達的模型,這樣就可以給視覺模型多幾千萬的參數(shù),。第二個是數(shù)據(jù)力量,,第三,在有限算力下怎么設計,,如果讓訓練更加充分,。這個公式是我們選擇純視覺方案背后的深層邏輯,為了上限更高,,迭代更快,。
為什么是視覺?
既然說到數(shù)據(jù),,要關注數(shù)據(jù)的質量,,所有傳感器都是每時每刻對環(huán)境進行離散采樣,,這里做了一個對比,第一列是主流的很多城市NOA使用的激光雷達的參數(shù),,分辨率、最大幀率兩者相乘變成一秒內點頻采樣數(shù),。中間列(SOTA)是沒有量產(chǎn),,最近剛剛有宣傳的代表,參數(shù)是業(yè)內最好的,,性能最高的激光雷達,,它對應的參數(shù)是這樣的。現(xiàn)在極越車上搭載的800萬攝像頭分辨率,、幀率,、點頻,三者對比大概比例1:8:160,,也就是說今天主流NOA是我們1/160,,明天最好的激光雷達是我們1/20,這只是可量化的部分,。
還有不是那么容易量化的部分,,數(shù)據(jù)里到底蘊含多少信息,可以供算法迭代,,左邊是激光雷達點云,,激光雷達返回幾何信息,另外更重要是Appearance-紋理,,這是圖像提供的,。右圖(PPT所示)隨便找一個路口看一張圖像,左邊是對應的激光雷達掃下來的點云,。如果看這個圖像,,這個信息實在太多了,首先大概能知道這里有兩條路,,在中間有斑馬線,,這里有紅綠燈,面向我們這個朝向是紅的,,面向行人是綠色的,,還有不一樣的行人,右邊有一個男生,,想過馬路,,擔心有車闖紅燈,朝我們看了一眼,,過程中放慢腳步,,很快通過了,,左邊有一個拿箱子的男士,這個箱子到底是不是靜止的障礙物,,還是會跟著這個人一起走,,不看圖像是不知道的。有一個女生站的很筆直,,她是過馬路還是等車,,是在準備過馬路還是等車過去之后再過馬路。如果從這個圖看,,大家肯定知道她是要過的,,因為她這邊是綠色的,而且已經(jīng)走到馬路中間,,后面還有摩托車馱著一個行人,,這是一個物體還是兩個物體,,通過圖像,,大家能有更好的解讀的能力�,?袋c云,,我們知道有一堆障礙物在路上,不能碰他,,我們減速,等它過去,,這個車也能走,,大家可以想象二者的上限和智能性的差異化是什么。從絕對的數(shù)量再到點云,,從不太容易量化的信息來看,,視覺的信息量數(shù)據(jù)的境況遠遠大于激光雷達的。
再談談加速度,。做視覺不會那么快,,比較難,在這張圖里,,剛才我解讀了很多,,有一個問題,對機器來說非常難,,這是計算機視覺幾十年的難題,,在我們這張圖像成圖的過程中已經(jīng)把三維做了有損投影,把三維世界壓到二維平面上,這是成像的過程,。無人車最重要第一步在三維環(huán)境里規(guī)劃軌跡,,怎么從二維圖像里把三維的信息找出來,這就是計算機視覺幾十年的難題,,二維到三維的挑戰(zhàn),。
如果有三維物體,看一下這個物體上面任何一個點,,投在圖像上某個位置,,這是非常容易的事情,,高中生都能做的數(shù)學公式來計算它,。反過來,,如果不告訴你這個物體在哪里,,只有一張圖像和一個像素,我問你,,這個像素在空間中的什么位置,,這就屬于病態(tài)問題或者ill-posed問題,。我可以在空間中任意一個移動物體上,,把這個物體投到對應的圖像位置上,等于我們有三個未知數(shù)要求,,但是只有兩個方程,,大家都不知道怎么做這個事情。
圍繞這個難題,,我們有三代技術方案,,大概代表了整個自動駕駛行業(yè)用純視覺解決自動駕駛三維問題的過程。第一個過程,,從2019年開始,意識到激光雷達和視覺放在一起的時候,,為什么視覺發(fā)展不了,?工程師還是會用身體投票,他在巨大業(yè)績壓力下會選擇做簡單的事情,,會選擇用激光雷達解bug,,沒有人愿意花這么多精力死磕視覺方案。當時我們做了一個決定,把激光雷達拿掉,,定了同樣的業(yè)務目標,,讓做視覺的算法同學死磕這類問題。當時我們用的方案,,左邊是多個相機不同視角的輸入,,每個相機或者幾個相機之間會分享DNN深度學習的網(wǎng)絡,每個網(wǎng)絡做的是從單一視角,,從二維到三維的恢復,,這樣的任務。每個網(wǎng)絡把它看到東西匯報出來之后,,首先在時序上對單相機做障礙物的跟蹤,,是基于規(guī)則。再往后還要做一步,,把多路相機感知到的東西做拼接,,拼到無人車統(tǒng)一的坐標系下,不然會有很多重復,,無人車就沒有辦法走,。這兩步后面都是基于規(guī)則的,雖然當時的效果還不錯,,但是調到后面發(fā)現(xiàn)很難調,,數(shù)據(jù)能解決的只在第一部分,后面還有很多要依靠假設,,依靠多樣的參數(shù),,依靠經(jīng)驗,依靠專家系統(tǒng)調的東西,。這個路走不了那么遠,。
2022年,我們果斷的做了一次大的升級,,也是用當時比較流行的BEV解決問題,,最大的變化把DNN變成Transformer,Transformer和DNN有什么區(qū)別,?我試圖用一個大家比較能容易理解的方式來說這個事情,,不是Deep Learning (DNN是Deep Learning深度學習的基礎模型之一)不能做BEV,其實也能做,,但是做不到Transformer這么好,,Transformer提供了一個能力是學習三維,我們把三維做約定,,畫一個網(wǎng)格,,每個網(wǎng)格能學習到各個圖像上怎么樣聚合圖像上的信息,再把這個信息在三維網(wǎng)格上提取出我們感興趣的東西。到這一步,,我們用Transformer+BEV的方式,,左邊原來是每一個相機同一時刻的輸入,現(xiàn)在每一個時刻都是時序上,,從時刻T到T-N倒推,,比如N幀,每一刻都是環(huán)視一圈數(shù)據(jù)進來,,進到這個網(wǎng)絡,,基本沒有什么規(guī)則和后處理,全是端到端直接輸出障礙物,,并且在結果上增加了除了2D框,,我們增加了預測任務,這個框物體未來幾秒未來的走向和趨勢是什么,。這一步升級之后,,這是1.1SOP版本的方案,整體就非常有信心,,可以用純視覺代替激光雷達做障礙物檢測,,這個方法上有一定缺陷,,少一張視覺拼圖,,因為它對檢測可以用框來表達的東西還是很擅長的,但是有些東西是沒有辦法用框表達,,比如延續(xù)很長的柵欄,,或者擺放無序的施工的土包、圍擋都不太容易用框來表達,。要徹底的趕超激光雷達,,我們2024年完成第三步升級,這是BEV+OCC+Transformer多任務統(tǒng)一的網(wǎng)絡,,這個網(wǎng)絡跟剛才相比,,我們加了3D的Transformer,我們把多個任務放在一塊學習,,右邊除了幾何,,整個三維世界里的位置、深度,、高度信息,,還有語義信息,這個東西到底代表什么,,是路邊遮擋還是車輛,,我們會自動的把這些幾何信息和語義信息聚合在一起,輸出三維信息框也好,或者OCC也好,。
還有我們在研的功能,,下一版希望推上去,整個跟蹤和預測都可以通過直接學習來做,,包括速度預估,,原來還需要做速度差分,幾幀之間的障礙物,,用數(shù)學公式算速度,,這個速度很難收斂,現(xiàn)在通過大量的數(shù)據(jù),,可以把速度和未來運動趨勢都做學習,,第四步還在研,這是我們完整的輸出,,Vision Takes AII的愿景理念,,這基本涵蓋所有我們做無人駕駛相關的感知任務,從檢測,,動態(tài)障礙物檢測,、靜態(tài)障礙物檢測到場景語義理解解讀,到時序的跟蹤,、運動估計,,全都可以用這樣一套架構做統(tǒng)一,未來迭代速度會更快,。
純視覺方案是不是非常降本的方法,?
介紹完這一部分的技術之后,第二個問題跟大家探討一下,,有很多人問,,你們純視覺方案是不是非常降本的方法,這個問題怎么看,?其實不是的,,大家看到的是車上少了幾千塊錢的BOM成本(如激光雷達等),用戶買車價格下來了,,但是在看不到的背后,,是極越和百度做這套純視覺方案的投入,天平的左邊是車上傳感器的成本,,這部分最直接的獲益者是極越車主可以花更少的錢去體驗高階智駕產(chǎn)品,。
大家會想圖像沒有3D,怎么把三維信息學出來,,現(xiàn)在激光雷達廠商生產(chǎn)最好的激光雷達我們都搭載到采集車上,,我通過采集車上學2D,、3D聯(lián)合的標注,把激光雷達能力通過這個過程融入到純視覺系統(tǒng)里,。一開始用的是百度Robotaxi超過六千萬公里訓練的數(shù)據(jù),,積累的數(shù)據(jù),都是全量落盤,,各種場景,,幾十個城市的數(shù)據(jù),作為熱啟動,。這么多信息,,要訓練充分,背后需要很多算力,,目前投入到跟極越項目上的卡數(shù)超過五千張(A100或A800這樣的大算力顯卡),,每周級別做迭代。
第三點,,自動化生產(chǎn)數(shù)據(jù),,數(shù)據(jù)不是標注的嗎,找人標就行了,,到了BEV時代,,我們又是時序,又是環(huán)視,,又是多任務,,人已經(jīng)搞不清楚了,不像當年在2D圖像上標框這么簡單,,人沒法搞定,,人可以做后續(xù)質檢,,但是整個生產(chǎn)流程是非常復雜的過程,,有時候我們看系統(tǒng)覺得,感覺和光刻機的感覺比較像,,投入非常大,,做產(chǎn)線,把網(wǎng)絡需要訓練的數(shù)據(jù),,自動化的生產(chǎn)出來,,是很有技術含量的過程,這里我們跟百度內部溝通,,內部協(xié)同和研究院,,用170億參數(shù)的視覺大模型,當然170億參數(shù)用了MOE的架構,,訓練的時候實際推理時間跟6億參數(shù)模型是一樣的,,不會花那么久的時間幫我們做輔助標注,。另外自動化產(chǎn)線,搭建下來,,日均產(chǎn)能可以做到百萬幀圖像,,最后高質量標注數(shù)據(jù)用于BEV+OCC聯(lián)合訓練的精標數(shù)據(jù)超過上億幀,這是大家看不見的背后投入,。
高精度自動化多任務共享的BEV+OCC訓練數(shù)據(jù)的生成過程,,首先我們有采集車,采集車上搭載了先進的激光雷達以及和極越配置近乎一樣或者完全一樣的攝像頭,,上面還有一幀是點云直接采回來,大家如果直接看點云,,顯然不太能用,,它還是比較離散,下面是自動化標注出來的供網(wǎng)絡學習的真實數(shù)據(jù),,里面不止有語義,,還有結構化信息,以及更重要的是非常準確的像雕刻過一樣的3D的感覺,,需要用很多步驟,,來回用大模型刷,用各種專家系統(tǒng),,雖然是離線(沒有那么高的實時要求),,把專家系統(tǒng)做的非常細致,點云采集的車,,左邊灰色的圖還是看不清楚的,,偶爾看到三輛車,但是中間橙色真實數(shù)據(jù)已經(jīng)把車的形狀雕刻的非常精細,,這里需要對車輛離線進行跟蹤,,把點云拼接到同一個時刻,讓點云的密度增加之后,,再在空間上做雕刻,。這里可以看到雕刻之后的車,精度已經(jīng)到厘米級,。右邊路沿,,每個車掃過去的時候只能有幾個點打在路沿上,非常稀疏,。通過后處理以及視覺與大模型的分類,,我們已經(jīng)可以把路沿很精細的刻畫出來,在場景里,,把高低起伏的地方標注出來�,,F(xiàn)在3D精度可以做到厘米級,,和激光雷達一樣,甚至比激光雷達還好一點,,分類接近一百類不一樣的東西,,可以在上面通過視覺大模型打標簽,做自動化的分類,。整個速度的估計,,視頻里是連續(xù)的視頻流,整個車輛速度,,障礙物運動速度的精度可以做到0.1米/秒的誤差,,是非常高質量的產(chǎn)線。
媒體:第一個問題,,有一個跟車機功能相關的點,,我那臺車更新完了,在切換賬號的時候,,需要在APP上確認,,沒有直接在車機里直接切換賬號就行了,這是多余的步驟,。此外,,QQ音樂播放的時候經(jīng)常無原因斷開,一首歌3分鐘的歌有四五次斷,,播放就斷,,斷了又回來。希望后續(xù)進一步優(yōu)化,。
第二個跟智駕相關,,請教一下王亮博士,現(xiàn)在極越智駕基礎能力,,方向盤抖動特別嚴重,,尤其在LCC過程中,它抖動的原因是什么,?比如我在開小鵬或者蔚來,,在車道保持有些偏移的時候會修正回來,在路況非常好的情況下極越方向盤抖動特別嚴重,,把手放在上面一直在抖也不知道它在修正什么?
王亮:這個問題我們意識到了,,您體驗是不是1.1的版本,。
媒體:1.3版本。
潘云鵬:關于方向盤修正問題,,1.3.0做了優(yōu)化,,另外方向盤如果是U型方向盤,,因為是平的,會加重方向盤左右感受,,我們會持續(xù)優(yōu)化,,這不是什么太難的事情。關于賬號切換的問題,,是不是因為網(wǎng)絡原因,,在高速上?
媒體:不是,。不可能在全國各地都有網(wǎng)絡,,我在上海有,在青島有,,我在黃州有,。我那臺車經(jīng)常登錄自己賬號,用幾天之后,,再用,,發(fā)現(xiàn)它又重新掃賬號,退出了,。車主賬號一直沒有切換過,。
潘云鵬:二位的問題我們記一下,除了網(wǎng)絡以外,,QQ斷流顯然是不正常的,。
媒體:其次問一下,輕圖(音)版本大概在什么時候上,?
潘云鵬:輕圖剛才已經(jīng)劇透了,,200城,今年肯定會在上半年,,爭取做一些提前的體驗出來,。要開200城的話,在未來一到兩個季度有比較大的變化,。
王亮:200城是年度OKR,。
媒體:王亮博士,現(xiàn)在大模型的更新,,比如OCC以后對通用障礙物識別肯定更廣泛能力更強,,現(xiàn)在我們大模型一次更新迭代的節(jié)奏是多長?
王亮:我們有預訓練的過程,,迭代一般可以用新的數(shù)據(jù),,對問題數(shù)據(jù)進行小的優(yōu)化,一般小優(yōu)化比較快,,一周左右,,不到一周,,很快測試出不同的版本的結果,。刷一次大的,大概在一周到兩周之間,,可以把車端幾千萬的參數(shù)模型重新刷一遍,,這還是比較敏捷,,但是模型的刷,要包含線下測試,、線上路上識路測試等,,我們做的還是比較謹慎一些,,擔心有離線測不出來的情況。所以大家感受上,,模型發(fā)版沒有那么快,,這個點是后續(xù)我們要進一步探討的,。我們會把模型驗證做的更加充分,,離線研究做的更充分,,能讓用戶更高頻更敏捷感受到大模型的迭代,。
媒體:最后一個問題,剛才講到現(xiàn)在正在開放下一代模型,,一直在看特斯拉做,他是把車和機器人算法一塊做�,,F(xiàn)在從BEV到Transformer到OCC是行業(yè)通識的,,下一代在這里面,會不會是研發(fā)方向,,這里是不是可以把端到端的東西往里做,。
王亮:特斯拉內部應該叫V12推送,在北美已經(jīng)推送給內部員工了,我們看到了視頻,,有說好,,有說不好的,,整體是大的趨勢。從圖像直接到車控制,,可以看成兩個大網(wǎng)絡任務,,純視覺,針對感知,,檢測、跟蹤、語義理解,、建圖在一起,,它的變化是不再直接輸出人能感覺到的,、可視化的障礙物,,而是把BEV的特征直接傳遞到下游決策規(guī)劃,決策規(guī)劃也是做成網(wǎng)絡直接學好的駕駛員的行為和軌跡,。不過這里有大的不確定性。首先需要多少數(shù)據(jù),,不好回答,,網(wǎng)絡要變得很大,。另外,駕駛還是要保持穩(wěn)定,,網(wǎng)絡是不是能保證也是一個問題,。特斯拉走的比較靠前,很多做智駕團隊也在做嘗試,、預演,,然后像前幾年BEV+Transformer一樣,各種論文,各種新的點子層出不窮,。我們比較堅持能做出來,,能落地的功能,我們內部也有這方面的布局,,當然什么時間在極越車上落地,,什么場景釋放,還得等一段時間,,我們再跟媒體朋友,,跟車主做交流,大家相信,,這應該是未來更好的讓車開的車更智能的大方向,,這個過程可能也要把整個決策規(guī)劃進行重構,類似AI原生思維,。
媒體:OCC非常大,,特斯拉推AEB性能有了很豐富的改進,速度區(qū)間,,從以前8-150可以支持到5-200,,下限5公里,上限200公里,,橫穿障礙物,,在過去用框不那么容易標定的,不知道技術原理的,,這些特斯拉明確說了用OCC解決,。還有明確說了基于通用障礙物的AEB,也是用OCC實現(xiàn)的,。同時,,2023年,尤其下半年比較重要的趨勢,,國內在卷AEB,,我們OCC是不是接下來有規(guī)劃強化極越主動安全能力?
王亮:肯定有的,,原來車上有很多不同的網(wǎng)絡,,做不同的任務,AEB有自己的網(wǎng)絡,,以后趨勢一定是,,從通用Vision Takes All的理念上輸出,下游各方的應用,,都要做,,這里不止是感知,,把它做出來了,上去了,,下面都可以用了,,下面還是決策規(guī)劃等等要做一定適配,特別AEB需要大量測試的,,這個是要做,,但是有一定排期。特斯拉做的時間比我們長一點,,我們還有需要進一步提升的,,比如視距提升。OCC在世界坐標系畫一個格子,,這個格子畫多大,,分辨率多少,每個格子是1米×1米,,還是10厘米×10厘米這個決定你能看多遠,做到多精細,,這個還有逐步工程化模型調優(yōu),,整個模型加速的過程,我們會朝這個方向努力,。在后面幾個版本,,你能感受到OCC變化。要做到高速上200公里AEB,,首先看得遠,,這個BEV和OCC都要努力夠,做模型優(yōu)化,。BEV的橫向障礙物識別,,包括自動學習速度預測,應該能給橫向AEB受益的,。
媒體:高算力訓練集群大于五千卡,,國內大家說的比較具體,是多少EFLOPS(音),,極越是多少,?
王亮:大家可以折算一下,這個不難算,,基本是A100,、A800高算力的卡。
媒體:去年CVPR上特斯拉簡單帶了一點點關于世界模型的內容,,這可能是在OCC之后,,下一個比較熱的東西,,或者反過來說光有OCC不足以支撐智能駕駛,它是一個階段性的終點,。您對世界模型的看法,,它有一個比較可供落地的技術路徑嗎,我們在更長周期里有規(guī)劃嗎,?
王亮:關于世界模型,,我們暫時沒有那么多的精力投入研究它,我大概看了一些,,包括百度Apollo內部有偏前瞻研究的部門也在看,,我看到新技術很興奮,但是怎么和自動駕駛很密切的結合,,能讓用戶感受到明顯的變化,,這個事情我沒有看那么清楚。端到端我有一些研究,,我會看一下特斯拉,,V12多多少少做出來了,這個方向上可落地性,,不能說一點問題沒有,,相信是肯定能做出來的。
媒體:最后關于OCC的問題,,有一些車會有白名單,,可以把視覺用提速解構。極越是沒有白名單,,還是會有一些東西,?你能看到它,或者OCC可以標注出來,,但是不確定是好的,,你依然分辨不出來是什么樣的障礙物,有可能一個塑料袋也是標注出來,,我們策略上是有白名單還是沒有白名單,,所有策略有減速或者繞行。
王亮:我們標了近一百類的東西,,這不是只有這一百類,,肯定有某一類就叫其他,從OCC設計理念上肯定追求的就是去白名單化,,希望可以涌現(xiàn)障礙物識別或者通行空間識別的能力,,是它的本質,現(xiàn)在釋放的肯定是學的比較充分的,,有比較充分的數(shù)據(jù)積累,,會一步步的向用戶推送感受�,,F(xiàn)在雖然模型不是這么設計,但是使用上會有這種感覺,,這是跟產(chǎn)品化結合過程中的策略,,為了保證大家的體驗。OCC上車并不容易,,其實它特別難,,因為它時時刻刻都在生效,但是被你碰到解決問題的那個,,可能是小概率事件,,可能很多人沒有遇到過。實時生效副作用是什么,?跟AEB比較像,,它檢測不準,有時候有莫名減速而讓用戶不爽,,所以我們要把這個東西調的特別好,,逐步的釋放。在很長的分類名單里,,你能感受到穩(wěn)定的障礙物,,應該會有逐步爬坡的過程。但它設計初衷不是做白名單,,肯定提升對通用的障礙物識別的能力。
媒體:我們看特斯拉自己分享,,包括我們跟國內其他品牌交流,,大家普遍覺得要做OCC需要非常海量數(shù)據(jù),我們前面PPT說了,,百度Robotaxi本身賦能一部分,,我們積累下來的所有Robotaxi積累下來的數(shù)據(jù)都可以復用嗎,如果不是,,我們從哪個階段,,我們實現(xiàn)OCC落地不過多的依賴極越車隊,而是依賴L4事業(yè)部數(shù)據(jù)解決,。
王亮:數(shù)據(jù)從哪兒來,?這個事情大家如果看百度,是有一定的優(yōu)勢,,比如量產(chǎn)車極越,,可能其他新勢力也有。這些數(shù)據(jù)既可以通過把車再武裝一些高價傳感器來收集,,比如激光雷達,,也可以攢個車隊去收集,。百度有兩個東西是有差異化競爭力的,我們有近千輛的Robotaxi在全國十多個城市運營,,每天除了一些時段沒有需求不做,,其他都在做,這部分搭載比較好的傳感器,,高精地圖等等,它可以貢獻數(shù)據(jù),,而且這個數(shù)據(jù)不是走流量,,有一個比較大的盤,這是我們自己運營的車,,存儲的數(shù)據(jù)比較全,,可以像圖書館一樣,你想要什么索引就好了,,把它拉出來,。另一個差異化是,我們有百度地圖,,百度地圖會往全國各地撒出很多的采集車,,采集車也是有攝像頭、激光雷達去制高精地圖,、SD地圖,,這個數(shù)據(jù)跟我們開城層面或者OCC很好的協(xié)同。我們跑的城市,,地圖在幾個月之前已經(jīng)跑過一遍,,而且這個數(shù)據(jù)也是全量落得。
媒體:地圖采集數(shù)也是像圖書館索引一樣調�,�,?
王亮:而且比RT覆蓋更好,RT是在限定區(qū)域跑很久,,基本上把區(qū)域吃的比較透,。地圖的車跟我們開城是強綁定的,像先頭部隊一樣,,基本把每一寸道路丈量之后,,數(shù)據(jù)采回來,我們可以用這個數(shù)據(jù)做我們網(wǎng)絡,。我們做的算比較快,,極越不是第一個做電動車,我們不是第一個做智駕產(chǎn)品,我們的速度可以看到,,基本做到什么事情說到做到,,按時交付、快速迭代,,這跟百度自己內部數(shù)據(jù)儲備,,自身的優(yōu)勢是有關系的。這四者都有,,而且極越的車日后會發(fā)揮越來越大的作用,。百度的特殊車輛,包括還會有一些特殊的能力,,我們需要在極越車上再加裝一些很高端的東西,,還是用這個邏輯,把高端傳感器的能力學到攝像頭上,,不斷的重復這個過程,,我們純視覺能力可以媲美激光雷達,這是我們遲早會做到的一件事情,。
媒體:我有一些關于座艙和車機,、智能駕駛方面的疑問,第一個,,文心一言4.0版本上線之后,,它的交流能力和獲取信息能力非常強,它的使用場景僅限在座艙里,,它得到的結果能不能和手機APP有更好的連接,,比如用戶可以通過手機APP看到你跟文心一言交流的內容,包括它幫你解決的問題,,可以用回答的方式體現(xiàn)在APP里,?
第二個問題,在極越01首發(fā)新車有補盲功能,,補盲功能是開車門盲區(qū)監(jiān)測,現(xiàn)在1.3.1上了打燈的盲區(qū),,但是盲區(qū)畫面還是小,,它本身來說整個車機屏幕是非常大的。
第三個問題,,極越01車機風格是太冷了,,太像機器人了,百度地圖是有很多好玩的功能,,有很多語音包,,還有其他百度功能特有的,這個功能能不能上線到極越01車上,。這個應該是吉利系造車問題,,電門總感覺有延遲,。單踏板高電量和低電量下的標定不統(tǒng)一。
極越01自動泊車做的很牛,,為什么在解安全帶后會自動停止,,甚至它沒有更好的提示。
最后一個問題,,關于輕圖覆蓋問題,,輕圖覆蓋需要一段時間,在輕圖覆蓋之前,,對于基礎LCC的功能上有沒有提升,?比如很多其他友商做的識別紅綠燈、穿過無標簽的路口,,提升它基礎LCC的能力,。
王亮:輕圖希望下次有分享,剛才還有一個能力沒有寫,,視覺建圖能力,,我們也會有一版大的迭代,是整個原理上的改變,,這個東西上了之后,,替換掉現(xiàn)在LCC使用的車道線檢測,輕圖做無圖紅綠燈,,這是順帶的,,ACC/LCC能力肯定是可以讓輕圖方案受益的,我們是一套感知的中央的服務,,服務各個應用,,所以肯定會做。
潘云鵬:現(xiàn)在圖做的比較好的百度,、高德,,在地圖這件事情上,輕圖挺快的,,可能比大家想象的快,,整個百度地圖所覆蓋到的輕圖制成的范圍,比大家想象的都要快,。
關于盲區(qū)畫面的問題,,1.3.1會變大,我們也意識到它太小,,后面會優(yōu)化,,會和你看后視鏡的感覺是類似的。
關于文心一言的問題,我們有兩個比較大的思考,,后面做大模型本地化的支持,,這次文心一言原聲支持只是起點,代表了我們在座艙的思考,,剛才你提到手圖上V19開始的大模型的集成,,這后面肯定很快,我們畢竟是在基于大模型作為OS去嫁接文心一言,、地圖,,或者別的多媒體應用。我們肯定可以把文心一言數(shù)據(jù)導出來的,。
電門問題,,我不是特別專業(yè),我也是遇到充滿電之后,,會更活躍,,動力變得更好,相反電力匱乏的時候變得稍微差一點,,總體而言這是留給更專業(yè)的同事解答,。
媒體:第二個問題,去年有一段時間,,包括從極越開始,,開始說純視覺路線,但我注意到去年年末今年年初,,大家又把激光雷達提出來,,可能因為去年11月份L3相關規(guī)范下發(fā)了,現(xiàn)在行業(yè)有一種探討或者說法,,如果后面做到L3級別,,可能需要用到激光雷達做冗余傳感器,我可能要實現(xiàn)特殊路段脫眼脫手,,如果做純視覺OCC路線,,這塊我們怎么考慮的?還是以后L3標準車型也會再加一些不一定是激光雷達,,是不是加一些其他的傳感器作為冗余,?
王亮:傳感器分兩種,一種是被動光,,像攝像頭,跟人眼成像原理比較一致,。還有主動光,,激光雷達,現(xiàn)在還有毫米波能起到主動光測距,作為冗余的作用,。我部門是做智駕解決方案,,目前還沒有收到非常明確的需求,以我目前的認知感覺,,現(xiàn)在做的脫手還是要求大家關注路況,,做到脫眼脫手需要加一定的冗余,這個冗余是什么原理的傳感器,,還有討論的空間,,但不論什么,視覺是基礎,,其他不能用的那么重,,不然就沒有替換的可行性。應該是在很強的視覺能力下,,加上主動光傳感器是比較好的,。
媒體:今年我們看到行業(yè)里在提無高清地圖的概念,我們試駕很多車型,,從體驗的角度來看,,如果是有圖,有高清,,數(shù)據(jù)不錯的情況下,,整體體驗是一定會比輕圖或無圖好,我們要解決泛化問題,,大家都在走這條路線,我特別好奇,,極越,包括百度在地圖上有自己的優(yōu)勢,,如果你們做輕圖,,你們會傾向于用什么樣的方式,?我們知道現(xiàn)在行業(yè)有兩種方式,,一種是通過用戶車隊方式提前對于路線進行先驗的方式,。還有通過模型的方式,,不停的在云端訓練路口的模型,看過很多路口,,大概這個路口就會走了,。我們大概用什么樣的路線?還是自己的優(yōu)勢的路線,?
王亮:從本質上,,像極越這樣定位的車型車企,追求的是最好用戶體驗的,,還是要做到隨時隨地�,,F(xiàn)在有一種叫通勤模式。我個人感覺,,極越明年可能有一些主流大的城市都會有比較多的店,,當然會有用戶在沒有極越的店的情況下買到車,我們也要支持,。這是增加用戶滲透率的有效方式,,這是我們在產(chǎn)品功能上的支持。在技術方案上我們要做到泛化,,我們要看過足夠多的路口,甚至利用百度地圖優(yōu)勢,,我們肯定有別人沒有的東西,,內部給我們的數(shù)據(jù)和接口,我們會有人無我有的差異化的競爭力,,肯定要做到極越鋪墊的主流城市里,做到哪里都能用,。
潘云鵬:這里涉及到兩個不同的方法,我們能夠冷啟動,,基本買到之后就能用,,因為我們有地圖上面的長期的積累,,因此在大部分的地區(qū),在主要銷售地區(qū)都會以這種方式完成這個任務,。中國比較大,在一些特別相對而言沒有辦法覆蓋到的場景下,,總體而言,,我們還是追求冷啟動,追求從A點到B點PPA的體驗,。(編譯/汽車之家 姚宇)
好評理由:
差評理由: