[汽車之家資訊] 日前,,極越汽車舉辦了“汽車機(jī)器人進(jìn)化日”超前體驗(yàn)活動(dòng),。極越數(shù)字產(chǎn)品負(fù)責(zé)人潘云鵬,;百度自動(dòng)駕駛技術(shù)負(fù)責(zé)人/百度IDG技術(shù)委員會(huì)主席王亮,將針對此次OTA升級計(jì)劃以及最新技術(shù)進(jìn)展做出分享,。具體信息如下:
潘云鵬:非常榮幸,,能和大家一起分享一下V1.3.0、1.3.1軟件關(guān)鍵內(nèi)容,。我們在軟件迭代方面,,積極聽取用戶意見,在新浪微博上還專門有這么一個(gè)熱詞#極越聽勸,。我們基本上一直保持這個(gè)人設(shè),,我們的整體軟件迭代邏輯有一個(gè)核心點(diǎn),就是通過SIMO來獲取用戶反饋,,一共得到將近12000多條反饋,,每天有大幾百條反饋給數(shù)據(jù)庫里灌。
用戶反饋
第一個(gè)階段已經(jīng)過去,,無論在車展上拉橫幅、400投訴電話,、微博找CEO,,用戶都處在非常弱勢,非常無助的情況,,不知道該怎么做,,車企也不太很清楚怎么樣才能拿到用戶最真實(shí)的反饋。
極越汽車解決了這個(gè)問題,,從公司創(chuàng)建的時(shí)候開始,,直接進(jìn)入2.0時(shí)代,用SIMO專屬客服作為橋梁,,每當(dāng)大家覺得有問題的時(shí)候,,就說SIMO我要反饋問題,無論是收集到產(chǎn)品建議,,還是吐槽,,還是對誰的建議,我們都可以直接收到,,并且我們的后臺(tái)有自動(dòng)分發(fā)系統(tǒng)標(biāo)簽,,直接到“罪魁禍?zhǔn)住保üこ處煟┑氖掷铩?/p>
2024年我們已經(jīng)升級到了3.0,融合大模型能力,,做到更快速的反饋,。因?yàn)楝F(xiàn)在每天反饋量太多,人工處理的邊際成本特別高,,所以融合大模型的能力,,現(xiàn)在會(huì)做自動(dòng)診斷,,自動(dòng)判斷,也會(huì)在用戶吐槽的時(shí)候第一時(shí)間給到用戶解法,。
之前發(fā)過一個(gè)視頻,,有一個(gè)比較直觀的例子,只要說SIMO我要反饋,,我們的用戶APP可以以秒級的速度收到一條問題,,然后開始處理。這是內(nèi)部的群,,包括各個(gè)團(tuán)隊(duì)一級部門負(fù)責(zé)人都在里面,,實(shí)時(shí)收到,包括所有需要解決問題所需的lock都會(huì)在里面,。從用戶側(cè)收到的反饋,,最終吐槽得對,屬于比較好的產(chǎn)品建議,,或者是比較好的產(chǎn)品問題,,我們會(huì)給予50積分獎(jiǎng)勵(lì)。我們這套機(jī)制運(yùn)轉(zhuǎn)了很長一段時(shí)間,,基于這個(gè)體系幫助我們迭代我們的軟件,。
我們一共收到12584條反饋,在1.3.0和1.3.1的版本上有60%的問題已經(jīng)得到解決,,平均處理時(shí)長小于1天,。問題過來后,從工程師實(shí)時(shí)看這些問題,,并分析這些問題,,小于24個(gè)小時(shí)完成反饋。在用戶比較關(guān)注的幾大類反饋問題中,,智艙智駕占30%,,產(chǎn)品建議占20%,其他問題,,其他功能軟件占20%,。比較多的例子,車主比較共鳴,,不清楚轉(zhuǎn)向燈怎么用,,PPA怎么開啟,定位會(huì)飄,,娛樂功能少,,APP覺得不夠豐富,藍(lán)牙鑰匙離車落不了鎖,,或者進(jìn)車解不了鎖,。我們在1.3.0和1.3.1針對這些問題得到了解決和優(yōu)化,。
軟件1.3.0和1.3.1版本的主要功能
智艙主要分幾部分,第一部分更多是U型方向盤,,之前是圓型,,我們做這款產(chǎn)品的時(shí)候這款產(chǎn)品發(fā)現(xiàn)U型方向盤有更好的視野,這次U型方向盤大家可以感受到駕駛,,3D地圖的體驗(yàn)有了質(zhì)的飛躍,。
第二個(gè)轉(zhuǎn)向燈,我們認(rèn)為在自動(dòng)駕駛或者人動(dòng)手開的時(shí)候,,可以通過算法,,盡量不需要手動(dòng)開啟轉(zhuǎn)向燈,在1.3.0版本里無論在變道還是轉(zhuǎn)彎,,已經(jīng)不需要再關(guān)閉轉(zhuǎn)向燈,,這個(gè)功能已經(jīng)上線了。1.4版本里,,我們通過你的意圖,,我們主動(dòng)打起轉(zhuǎn)向燈,在1.4的版本里會(huì)做,。
接著是換擋,,很多用戶覺得換擋的時(shí)候容易手滑,滑不到位,,現(xiàn)在可以“點(diǎn)擊換擋”,輕輕一點(diǎn),,極速換擋,。換檔會(huì)做成自動(dòng)化,判斷前車和后車相對位置,,包括通過上次行車的行為,,判斷出自動(dòng)前進(jìn)或后退。
SIMO文心一言
SIMO文心一言的能力,,我們在之前版本里文心一言是集成進(jìn)去了,,是需要特地的說聊天或喚起文心一言進(jìn)入文心一言的空間。現(xiàn)在文心一言是原生集成到SIMO能力里,,并不需要刻意的來講(喚醒),,我要調(diào)動(dòng)起文心一言的哪些能力,它可以根據(jù)你的說話內(nèi)容自動(dòng)的幫助你完成這些任務(wù),。
這是一個(gè)視頻,,(#SIMO從可見即可說到可說即可做)。還可以有更多的場景延展,,包括問SIMO現(xiàn)在最熱門的電視劇有哪些,。比如《繁花》《三大隊(duì)》,,立馬說SIMO我要播放《三大隊(duì)》或者《繁花》,基本能夠?qū)崟r(shí)播放,,在SIMO大模型領(lǐng)域和娛樂域能做到比較好的切換,。這是關(guān)于座艙部分的更新。
OCC技術(shù)用戶體驗(yàn)
現(xiàn)在一共有三代,,第一代是單目DNN感知網(wǎng)絡(luò)環(huán)視后融合,,2.0大家遇到比較多的BEV+Transformer時(shí)空融合,極越汽車是唯一一家能夠做BEV+OCC+Transformer多任務(wù)統(tǒng)一網(wǎng)絡(luò)的企業(yè),,我們給它起了一個(gè)名字,,BOT,也是機(jī)器人的概念,。本質(zhì)上,,是想說我們是超高精度體素,甚至小于厘米級,,由過去BEV2D變成3D,,來判斷駕駛空間里是否被占用。超直覺,,之前需要判斷前方是人是車還是什么東西,,現(xiàn)在基本上認(rèn)為前方有一個(gè)物體,和開車的時(shí)候很像,,通過直覺繞開它,,而不需要通過思考。
這是三個(gè)在1.3.1的時(shí)候比較關(guān)鍵的場景,,遇障剎停,,第二個(gè)遇到障礙物無感繞障,提前規(guī)劃,,到障礙物可以跨車道繞開,。另外是遠(yuǎn)離硬隔離,它會(huì)在你離水馬硬路很近的時(shí)候適當(dāng)遠(yuǎn)離,,給大家很足的安心感,,這種場景在匝道上大家感受很明顯。
PPA我們做了很多細(xì)節(jié)上的提升,,PPA之前大家覺得變道比較保守,,現(xiàn)在比較自信,在一些需要判斷要不要變道的路況中,,我們不會(huì)來回的猶豫,。第二,有一些更加靈活的變道或者通行策略,比如公交車道在可以行駛的時(shí)間段,,我們可以借用公交車道進(jìn)行通行,。包括黃虛線借道上有更加靈活繞行策略。
無感區(qū)域,,繞過路障,、以及過路障已經(jīng)提到了,主要是基于OCC能力,。在一些小路上,,導(dǎo)航地圖如果有一些信息不是夠完整、準(zhǔn)確的時(shí)候,,我們能夠更加從容的通過這些路段,。在這個(gè)圖上沒有展示的,或者對比之前地圖有很大量的變道,,大家可能覺得不知道為什么變道,、剎車,我們會(huì)告訴大家為什么變道,,有時(shí)候因?yàn)槌?,有時(shí)候因?yàn)楸苷希袝r(shí)候因?yàn)樵训赖搅?,有時(shí)候因?yàn)閷?dǎo)航路徑規(guī)劃的原因,,這些東西都在這個(gè)版本上給大家做了提升。
我們在今年年底,,除了上海以外,,北京、杭州,、深圳,,開了大量的城區(qū)路寬,而不是開一條路,,是真正做到把路連成網(wǎng),讓它有連續(xù)性,,用戶可以從A點(diǎn)到B點(diǎn)實(shí)現(xiàn)智駕通勤,。我們認(rèn)為只有做到60%-70%的用車場景和90%以上高頻場景的覆蓋才能叫真正的開城。2024年會(huì)完成200+城市的城區(qū)道路,,我們會(huì)采取通勤+輕圖的模式,。
視覺系統(tǒng)
我們一直說汽車機(jī)器人,我們認(rèn)為視覺不僅僅用在自動(dòng)駕駛身上,,我們認(rèn)為視覺(系統(tǒng))可以用在更多的通用任務(wù),,比如開門剎、燒餅?zāi)J健⒏珳?zhǔn)路況識別,、透明底盤,,大家在1.3版本上都能感受到。
泊車我們做了算法的升級,,我們自動(dòng)APA滲透率比較高,,達(dá)到96%,成功率88%,,算法重寫之后,,平均可以減少20-30%的時(shí)間,斷頭路和極窄車位提升25%的成功率,,斷頭路比較極端的場景,,我們測試下來,有將近一倍容錯(cuò)次數(shù)的減少,,也是比較大的升級,。
安全方面
后面是關(guān)于安全上的更新。我們是電動(dòng)門,,大家會(huì)擔(dān)憂電動(dòng)門,,在車輛沒電的情況下,是否會(huì)有打不開的情況,,我們有有專門獨(dú)立電源,,專門應(yīng)對電動(dòng)門的場景,電動(dòng)門會(huì)在碰撞的15秒保持關(guān)閉,,這樣避免司機(jī)或者乘客被甩出去,,進(jìn)行二次傷害。最后是1.3版本更新上的,,我們有一個(gè)救生門模式,,借助破冰模式,在冬天的時(shí)候,,破冰的場景上,,我們應(yīng)用到碰撞場景上,可以用一百斤力量把車門頂開,,保證乘客在事故之后的安全,,得到安全的救助。
娛樂方面
娛樂進(jìn)化,,大家一直吐槽APP太少,,這次加入了B站、云聽,、小宇宙,,后期大家可以期待一下,,我們很快會(huì)加速APPStore的建設(shè),會(huì)有更多第三方的生態(tài)APP接入進(jìn)來,。還有switch投屏,,可以在車內(nèi)通過轉(zhuǎn)接頭進(jìn)行投屏,進(jìn)行游戲,,除了抽煙以外,,又多了一個(gè)回家在車上多待一會(huì)兒的理由。車載KTV方面,,我們在商城上架了相應(yīng)的麥克風(fēng)等硬件,,可以在車上和朋友進(jìn)行K歌。
體驗(yàn)方面
最后一個(gè)是體驗(yàn)進(jìn)化,,冬天充電速度,,座艙預(yù)熱,破冰門,,雪地脫困,,這次上了APP,會(huì)有座艙預(yù)約加熱功能,,電池預(yù)熱,,特別是磷酸鐵鋰電池在比較低溫情況下,為了保持化學(xué)上的活性,,我們可以為電池進(jìn)行提前加熱,,使得車輛得到了充電站之后,充電效率和充電速率可以得到提升,,這是電池預(yù)熱的功能,,在1.3版本里已經(jīng)加入。對于performance版本車型,,會(huì)有雪地模式,,讓大家在雪地下有比省心的駕駛體驗(yàn)。
在一萬兩千多條的反饋下,,包括哨兵模式,,大家吐槽有誤報(bào),PPA開啟后為什么車輛變道,,3D地圖下,,紅綠燈,轉(zhuǎn)向燈,,大家覺得聽不到,,特別開音樂的時(shí)候轉(zhuǎn)向燈聲音太小,,我們比較聽勸,,都做了調(diào)整。
手機(jī)和藍(lán)牙實(shí)時(shí)音頻,以前大家連接到手機(jī)上以后,,播放手機(jī)上的媒體,,之前要手動(dòng)切換到手機(jī)藍(lán)牙才能播放,現(xiàn)在手機(jī)實(shí)時(shí)藍(lán)牙檢測,,它可以在你想播放手機(jī),,比如微信、抖音多媒體信道可以自由的進(jìn)行切換,,播完之后自動(dòng)切換車內(nèi)通道,。舒適進(jìn)出是用戶投訴反饋比較多的,座椅沒有恢復(fù)到已有的位置或者記憶位置,,以及記憶位置不準(zhǔn)確,,我們在1.3.0和1.3.1都有優(yōu)化。
技術(shù)上OCC怎么實(shí)現(xiàn)的,?
王亮:各位媒體朋友,,各位集度同事大家下午好!很榮幸收到邀請,,過來跟大家做技術(shù)層面的交流,。今天分享的題目Vision Takes All,有一個(gè)副標(biāo)題,,用AI原生思維重構(gòu)自動(dòng)駕駛視覺感知技術(shù),,這里有一些詞解釋一下,英文這個(gè)詞代表什么,?這是我們內(nèi)部的愿景,,我們希望是用純視覺,#用一個(gè)視覺大模型去Takes All,,英文翻譯過來是“通吃”,,我們希望解決所有自動(dòng)駕駛感知相關(guān)的問題,用純視覺大模型做,。副標(biāo)題里,,AI原生思維,是什么概念,?這在百度內(nèi)部被提的比較多的概念,。
我說一下我的理解,什么是好的AI原生思維,,在今天大模型時(shí)代大數(shù)據(jù)時(shí)代,,我舉一個(gè)很好的例子,極越語音設(shè)計(jì)就是非常AI原生思維的產(chǎn)品設(shè)計(jì),,我認(rèn)識的人,,包括我,,開車久了之后,不會(huì)再找車上按紐,,所有事情很自然的通過語音交互去完成,。
如果從算法上講,舉一個(gè)例子,,趨勢是什么,?都是從規(guī)則到多模型多任務(wù),再到模型的聚合,,大模型,,多任務(wù)的過程,比如我們原來判斷會(huì)不會(huì)有車輛,、會(huì)不會(huì)加塞,,最早會(huì)有每個(gè)時(shí)刻的障礙物擬合加軌跡,看看和前行的軌跡會(huì)不會(huì)有交叉,,都可以靠數(shù)學(xué)計(jì)算幾何計(jì)算做判斷,。第二步可以做模型判斷,可以學(xué)車輪子,、學(xué)車燈,、學(xué)車道線,這三個(gè)模型輸出的結(jié)果,,能更好更準(zhǔn)確的判斷,,這個(gè)車會(huì)不會(huì)對我們進(jìn)行加塞動(dòng)作。到今天會(huì)怎么做,?我們把所有的小模型都去掉,,我們用連續(xù)幀視頻的信息直接判斷會(huì)不會(huì)加塞,這也是一種在算法層面AI原生思維的體現(xiàn),。
分享第一部分,,很多人會(huì)問,媒體朋友也會(huì)感興趣,,為什么極越高階智駕PPA選擇用純視覺做,?有很多人問,為什么不用激光雷達(dá),。馬斯克說人類沒有主動(dòng)的測距能力,,兩個(gè)眼睛就能開車,AI也可以,。激光雷達(dá)是比較昂貴的,,雖然現(xiàn)在降本大潮下,價(jià)格不斷的往下打,,但是我可以很確定的說,,它的器件和成像原理在這里,,再怎么降本,它的成本也會(huì)是相機(jī)的5-10倍,。激光雷達(dá)是很精密的光學(xué)測距儀器,里面有很多移動(dòng)部件,,這種部件有很高概率會(huì)出現(xiàn)可靠性問題,,會(huì)帶來售后問題。
第四點(diǎn),,我們也有毫米波雷達(dá),、超聲波雷達(dá),它們原理差不多,,可以做很多激光雷達(dá)做的工作,,但是不管激光雷達(dá)還是毫米波、超聲波,,他們都代替不了相機(jī),。最后更專業(yè)一點(diǎn)的算法同學(xué)會(huì)有感觸,激光雷達(dá)也不是一個(gè)完美的系統(tǒng),,它會(huì)有偽影,,消除偽影的影響也是非常難做,非常痛苦的過程,。這都是大家耳熟能詳?shù)脑颉?/p>
我們?nèi)粘5难葸M(jìn)迭代速度等于什么,?(初速度+加速度)×?xí)r間,跟時(shí)間相關(guān)的是加速度,。初速度很重要,,這是算法從0到1的階段,也是激光雷達(dá)最大的優(yōu)勢,。2017年左右很多創(chuàng)業(yè)公司可以在三個(gè)月可以在城市里把激光雷達(dá)的自動(dòng)駕駛方案demo跑出來,,為什么這么快?他們不用深耕嗎,?如果有很好的工程師,,利用激光雷達(dá)直接提供的三維信息,可以不需要那么強(qiáng)的算法,,就能把這個(gè)事情跑起來,,沒那么難。但是在視覺方案這邊,,視覺初速度很慢,。從Mobileye做了25年的視覺方案,就能發(fā)現(xiàn)這個(gè)事情足夠難,,這也是Mobileye CEO講這是他們?yōu)槭裁创嬖诘睦碛?。特斯拉是什么時(shí)候,?2015年和Mobileye分手之后自己開始組團(tuán)隊(duì),自研純視覺的方案,,到今天也有八年多的時(shí)間,,百度的視覺方案在2019年正式開始進(jìn)行高強(qiáng)度嘗試,當(dāng)時(shí)通過小的項(xiàng)目,,在Apollo Lite上做了開始,,到和極越合作過程中,已經(jīng)開始算完成從0到1的進(jìn)化,。加速度和什么相關(guān),?在這個(gè)大模型時(shí)代,OpenAI有很有名的文章,,Scaling Laws for Neural Language Models,,這里提了一個(gè)結(jié)論,整個(gè)模型的迭代速度跟三件事情相關(guān),,模型的參數(shù)量,、數(shù)據(jù)的規(guī)模、訓(xùn)練算力,,這三者相輔相成,,決定了模型的質(zhì)量。論文告訴我們在今天技術(shù)時(shí)代,,我們要把能力上限做上去,,迭代的更快,需要關(guān)注模型大小,,訓(xùn)練的質(zhì)量,,還有超強(qiáng)算力。
模型怎么做大,?
車上如果一堆小模型都在跑各自任務(wù),,不可能把單一模型做特別大,所以我們一定要合并,,減少激光雷達(dá)的模型,,這樣就可以給視覺模型多幾千萬的參數(shù)。第二個(gè)是數(shù)據(jù)力量,,第三,,在有限算力下怎么設(shè)計(jì),如果讓訓(xùn)練更加充分,。這個(gè)公式是我們選擇純視覺方案背后的深層邏輯,,為了上限更高,迭代更快。
為什么是視覺,?
既然說到數(shù)據(jù),,要關(guān)注數(shù)據(jù)的質(zhì)量,所有傳感器都是每時(shí)每刻對環(huán)境進(jìn)行離散采樣,,這里做了一個(gè)對比,,第一列是主流的很多城市NOA使用的激光雷達(dá)的參數(shù),分辨率,、最大幀率兩者相乘變成一秒內(nèi)點(diǎn)頻采樣數(shù),。中間列(SOTA)是沒有量產(chǎn),最近剛剛有宣傳的代表,,參數(shù)是業(yè)內(nèi)最好的,性能最高的激光雷達(dá),,它對應(yīng)的參數(shù)是這樣的?,F(xiàn)在極越車上搭載的800萬攝像頭分辨率、幀率,、點(diǎn)頻,,三者對比大概比例1:8:160,也就是說今天主流NOA是我們1/160,,明天最好的激光雷達(dá)是我們1/20,,這只是可量化的部分。
還有不是那么容易量化的部分,,數(shù)據(jù)里到底蘊(yùn)含多少信息,,可以供算法迭代,左邊是激光雷達(dá)點(diǎn)云,,激光雷達(dá)返回幾何信息,,另外更重要是Appearance-紋理,這是圖像提供的,。右圖(PPT所示)隨便找一個(gè)路口看一張圖像,,左邊是對應(yīng)的激光雷達(dá)掃下來的點(diǎn)云。如果看這個(gè)圖像,,這個(gè)信息實(shí)在太多了,,首先大概能知道這里有兩條路,在中間有斑馬線,,這里有紅綠燈,,面向我們這個(gè)朝向是紅的,面向行人是綠色的,,還有不一樣的行人,,右邊有一個(gè)男生,想過馬路,,擔(dān)心有車闖紅燈,,朝我們看了一眼,,過程中放慢腳步,很快通過了,,左邊有一個(gè)拿箱子的男士,,這個(gè)箱子到底是不是靜止的障礙物,還是會(huì)跟著這個(gè)人一起走,,不看圖像是不知道的,。有一個(gè)女生站的很筆直,她是過馬路還是等車,,是在準(zhǔn)備過馬路還是等車過去之后再過馬路,。如果從這個(gè)圖看,大家肯定知道她是要過的,,因?yàn)樗@邊是綠色的,,而且已經(jīng)走到馬路中間,后面還有摩托車馱著一個(gè)行人,,這是一個(gè)物體還是兩個(gè)物體,,通過圖像,大家能有更好的解讀的能力,??袋c(diǎn)云,我們知道有一堆障礙物在路上,,不能碰他,,我們減速,等它過去,,這個(gè)車也能走,,大家可以想象二者的上限和智能性的差異化是什么。從絕對的數(shù)量再到點(diǎn)云,,從不太容易量化的信息來看,,視覺的信息量數(shù)據(jù)的境況遠(yuǎn)遠(yuǎn)大于激光雷達(dá)的。
再談?wù)劶铀俣?。做視覺不會(huì)那么快,,比較難,在這張圖里,,剛才我解讀了很多,,有一個(gè)問題,對機(jī)器來說非常難,,這是計(jì)算機(jī)視覺幾十年的難題,,在我們這張圖像成圖的過程中已經(jīng)把三維做了有損投影,把三維世界壓到二維平面上,這是成像的過程,。無人車最重要第一步在三維環(huán)境里規(guī)劃軌跡,,怎么從二維圖像里把三維的信息找出來,這就是計(jì)算機(jī)視覺幾十年的難題,,二維到三維的挑戰(zhàn),。
如果有三維物體,看一下這個(gè)物體上面任何一個(gè)點(diǎn),,投在圖像上某個(gè)位置,,這是非常容易的事情,高中生都能做的數(shù)學(xué)公式來計(jì)算它,。反過來,,如果不告訴你這個(gè)物體在哪里,只有一張圖像和一個(gè)像素,,我問你,,這個(gè)像素在空間中的什么位置,這就屬于病態(tài)問題或者ill-posed問題,。我可以在空間中任意一個(gè)移動(dòng)物體上,,把這個(gè)物體投到對應(yīng)的圖像位置上,,等于我們有三個(gè)未知數(shù)要求,,但是只有兩個(gè)方程,大家都不知道怎么做這個(gè)事情,。
圍繞這個(gè)難題,,我們有三代技術(shù)方案,大概代表了整個(gè)自動(dòng)駕駛行業(yè)用純視覺解決自動(dòng)駕駛?cè)S問題的過程,。第一個(gè)過程,,從2019年開始,意識到激光雷達(dá)和視覺放在一起的時(shí)候,,為什么視覺發(fā)展不了,?工程師還是會(huì)用身體投票,他在巨大業(yè)績壓力下會(huì)選擇做簡單的事情,,會(huì)選擇用激光雷達(dá)解bug,,沒有人愿意花這么多精力死磕視覺方案。當(dāng)時(shí)我們做了一個(gè)決定,,把激光雷達(dá)拿掉,,定了同樣的業(yè)務(wù)目標(biāo),讓做視覺的算法同學(xué)死磕這類問題,。當(dāng)時(shí)我們用的方案,,左邊是多個(gè)相機(jī)不同視角的輸入,每個(gè)相機(jī)或者幾個(gè)相機(jī)之間會(huì)分享DNN深度學(xué)習(xí)的網(wǎng)絡(luò),每個(gè)網(wǎng)絡(luò)做的是從單一視角,,從二維到三維的恢復(fù),,這樣的任務(wù)。每個(gè)網(wǎng)絡(luò)把它看到東西匯報(bào)出來之后,,首先在時(shí)序上對單相機(jī)做障礙物的跟蹤,,是基于規(guī)則。再往后還要做一步,,把多路相機(jī)感知到的東西做拼接,,拼到無人車統(tǒng)一的坐標(biāo)系下,不然會(huì)有很多重復(fù),,無人車就沒有辦法走。這兩步后面都是基于規(guī)則的,,雖然當(dāng)時(shí)的效果還不錯(cuò),但是調(diào)到后面發(fā)現(xiàn)很難調(diào),,數(shù)據(jù)能解決的只在第一部分,后面還有很多要依靠假設(shè),,依靠多樣的參數(shù),,依靠經(jīng)驗(yàn),,依靠專家系統(tǒng)調(diào)的東西,。這個(gè)路走不了那么遠(yuǎn),。
2022年,,我們果斷的做了一次大的升級,也是用當(dāng)時(shí)比較流行的BEV解決問題,,最大的變化把DNN變成Transformer,,Transformer和DNN有什么區(qū)別,?我試圖用一個(gè)大家比較能容易理解的方式來說這個(gè)事情,不是Deep Learning (DNN是Deep Learning深度學(xué)習(xí)的基礎(chǔ)模型之一)不能做BEV,,其實(shí)也能做,,但是做不到Transformer這么好,Transformer提供了一個(gè)能力是學(xué)習(xí)三維,,我們把三維做約定,,畫一個(gè)網(wǎng)格,,每個(gè)網(wǎng)格能學(xué)習(xí)到各個(gè)圖像上怎么樣聚合圖像上的信息,,再把這個(gè)信息在三維網(wǎng)格上提取出我們感興趣的東西,。到這一步,,我們用Transformer+BEV的方式,左邊原來是每一個(gè)相機(jī)同一時(shí)刻的輸入,,現(xiàn)在每一個(gè)時(shí)刻都是時(shí)序上,,從時(shí)刻T到T-N倒推,,比如N幀,,每一刻都是環(huán)視一圈數(shù)據(jù)進(jìn)來,,進(jìn)到這個(gè)網(wǎng)絡(luò),,基本沒有什么規(guī)則和后處理,全是端到端直接輸出障礙物,,并且在結(jié)果上增加了除了2D框,,我們增加了預(yù)測任務(wù),,這個(gè)框物體未來幾秒未來的走向和趨勢是什么。這一步升級之后,,這是1.1SOP版本的方案,,整體就非常有信心,,可以用純視覺代替激光雷達(dá)做障礙物檢測,,這個(gè)方法上有一定缺陷,,少一張視覺拼圖,,因?yàn)樗鼘z測可以用框來表達(dá)的東西還是很擅長的,,但是有些東西是沒有辦法用框表達(dá),,比如延續(xù)很長的柵欄,,或者擺放無序的施工的土包,、圍擋都不太容易用框來表達(dá)。要徹底的趕超激光雷達(dá),,我們2024年完成第三步升級,,這是BEV+OCC+Transformer多任務(wù)統(tǒng)一的網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)跟剛才相比,,我們加了3D的Transformer,,我們把多個(gè)任務(wù)放在一塊學(xué)習(xí),右邊除了幾何,,整個(gè)三維世界里的位置,、深度、高度信息,,還有語義信息,,這個(gè)東西到底代表什么,是路邊遮擋還是車輛,,我們會(huì)自動(dòng)的把這些幾何信息和語義信息聚合在一起,,輸出三維信息框也好,或者OCC也好,。
還有我們在研的功能,,下一版希望推上去,整個(gè)跟蹤和預(yù)測都可以通過直接學(xué)習(xí)來做,,包括速度預(yù)估,,原來還需要做速度差分,幾幀之間的障礙物,,用數(shù)學(xué)公式算速度,,這個(gè)速度很難收斂,現(xiàn)在通過大量的數(shù)據(jù),,可以把速度和未來運(yùn)動(dòng)趨勢都做學(xué)習(xí),,第四步還在研,這是我們完整的輸出,,Vision Takes AII的愿景理念,,這基本涵蓋所有我們做無人駕駛相關(guān)的感知任務(wù),從檢測,,動(dòng)態(tài)障礙物檢測,、靜態(tài)障礙物檢測到場景語義理解解讀,到時(shí)序的跟蹤,、運(yùn)動(dòng)估計(jì),,全都可以用這樣一套架構(gòu)做統(tǒng)一,未來迭代速度會(huì)更快,。
純視覺方案是不是非常降本的方法,?
介紹完這一部分的技術(shù)之后,,第二個(gè)問題跟大家探討一下,有很多人問,,你們純視覺方案是不是非常降本的方法,,這個(gè)問題怎么看?其實(shí)不是的,,大家看到的是車上少了幾千塊錢的BOM成本(如激光雷達(dá)等),,用戶買車價(jià)格下來了,但是在看不到的背后,,是極越和百度做這套純視覺方案的投入,天平的左邊是車上傳感器的成本,這部分最直接的獲益者是極越車主可以花更少的錢去體驗(yàn)高階智駕產(chǎn)品,。
大家會(huì)想圖像沒有3D,怎么把三維信息學(xué)出來,,現(xiàn)在激光雷達(dá)廠商生產(chǎn)最好的激光雷達(dá)我們都搭載到采集車上,,我通過采集車上學(xué)2D,、3D聯(lián)合的標(biāo)注,,把激光雷達(dá)能力通過這個(gè)過程融入到純視覺系統(tǒng)里。一開始用的是百度Robotaxi超過六千萬公里訓(xùn)練的數(shù)據(jù),積累的數(shù)據(jù),,都是全量落盤,,各種場景,幾十個(gè)城市的數(shù)據(jù),,作為熱啟動(dòng),。這么多信息,,要訓(xùn)練充分,背后需要很多算力,,目前投入到跟極越項(xiàng)目上的卡數(shù)超過五千張(A100或A800這樣的大算力顯卡),,每周級別做迭代,。
第三點(diǎn),自動(dòng)化生產(chǎn)數(shù)據(jù),,數(shù)據(jù)不是標(biāo)注的嗎,,找人標(biāo)就行了,,到了BEV時(shí)代,我們又是時(shí)序,,又是環(huán)視,,又是多任務(wù),人已經(jīng)搞不清楚了,,不像當(dāng)年在2D圖像上標(biāo)框這么簡單,,人沒法搞定,人可以做后續(xù)質(zhì)檢,,但是整個(gè)生產(chǎn)流程是非常復(fù)雜的過程,,有時(shí)候我們看系統(tǒng)覺得,感覺和光刻機(jī)的感覺比較像,,投入非常大,做產(chǎn)線,把網(wǎng)絡(luò)需要訓(xùn)練的數(shù)據(jù),,自動(dòng)化的生產(chǎn)出來,,是很有技術(shù)含量的過程,這里我們跟百度內(nèi)部溝通,,內(nèi)部協(xié)同和研究院,,用170億參數(shù)的視覺大模型,當(dāng)然170億參數(shù)用了MOE的架構(gòu),,訓(xùn)練的時(shí)候?qū)嶋H推理時(shí)間跟6億參數(shù)模型是一樣的,,不會(huì)花那么久的時(shí)間幫我們做輔助標(biāo)注。另外自動(dòng)化產(chǎn)線,搭建下來,,日均產(chǎn)能可以做到百萬幀圖像,,最后高質(zhì)量標(biāo)注數(shù)據(jù)用于BEV+OCC聯(lián)合訓(xùn)練的精標(biāo)數(shù)據(jù)超過上億幀,這是大家看不見的背后投入,。
高精度自動(dòng)化多任務(wù)共享的BEV+OCC訓(xùn)練數(shù)據(jù)的生成過程,,首先我們有采集車,采集車上搭載了先進(jìn)的激光雷達(dá)以及和極越配置近乎一樣或者完全一樣的攝像頭,,上面還有一幀是點(diǎn)云直接采回來,,大家如果直接看點(diǎn)云,顯然不太能用,,它還是比較離散,,下面是自動(dòng)化標(biāo)注出來的供網(wǎng)絡(luò)學(xué)習(xí)的真實(shí)數(shù)據(jù),里面不止有語義,,還有結(jié)構(gòu)化信息,,以及更重要的是非常準(zhǔn)確的像雕刻過一樣的3D的感覺,需要用很多步驟,,來回用大模型刷,,用各種專家系統(tǒng),雖然是離線(沒有那么高的實(shí)時(shí)要求),,把專家系統(tǒng)做的非常細(xì)致,,點(diǎn)云采集的車,左邊灰色的圖還是看不清楚的,,偶爾看到三輛車,,但是中間橙色真實(shí)數(shù)據(jù)已經(jīng)把車的形狀雕刻的非常精細(xì),這里需要對車輛離線進(jìn)行跟蹤,,把點(diǎn)云拼接到同一個(gè)時(shí)刻,,讓點(diǎn)云的密度增加之后,再在空間上做雕刻,。這里可以看到雕刻之后的車,,精度已經(jīng)到厘米級。右邊路沿,,每個(gè)車掃過去的時(shí)候只能有幾個(gè)點(diǎn)打在路沿上,,非常稀疏。通過后處理以及視覺與大模型的分類,,我們已經(jīng)可以把路沿很精細(xì)的刻畫出來,,在場景里,把高低起伏的地方標(biāo)注出來?,F(xiàn)在3D精度可以做到厘米級,,和激光雷達(dá)一樣,,甚至比激光雷達(dá)還好一點(diǎn),分類接近一百類不一樣的東西,,可以在上面通過視覺大模型打標(biāo)簽,,做自動(dòng)化的分類。整個(gè)速度的估計(jì),,視頻里是連續(xù)的視頻流,,整個(gè)車輛速度,障礙物運(yùn)動(dòng)速度的精度可以做到0.1米/秒的誤差,,是非常高質(zhì)量的產(chǎn)線,。
媒體:第一個(gè)問題,有一個(gè)跟車機(jī)功能相關(guān)的點(diǎn),,我那臺(tái)車更新完了,,在切換賬號的時(shí)候,,需要在APP上確認(rèn),,沒有直接在車機(jī)里直接切換賬號就行了,這是多余的步驟,。此外,,QQ音樂播放的時(shí)候經(jīng)常無原因斷開,一首歌3分鐘的歌有四五次斷,,播放就斷,,斷了又回來。希望后續(xù)進(jìn)一步優(yōu)化,。
第二個(gè)跟智駕相關(guān),,請教一下王亮博士,現(xiàn)在極越智駕基礎(chǔ)能力,,方向盤抖動(dòng)特別嚴(yán)重,,尤其在LCC過程中,它抖動(dòng)的原因是什么,?比如我在開小鵬或者蔚來,,在車道保持有些偏移的時(shí)候會(huì)修正回來,在路況非常好的情況下極越方向盤抖動(dòng)特別嚴(yán)重,,把手放在上面一直在抖也不知道它在修正什么,?
王亮:這個(gè)問題我們意識到了,您體驗(yàn)是不是1.1的版本,。
媒體:1.3版本,。
潘云鵬:關(guān)于方向盤修正問題,1.3.0做了優(yōu)化,,另外方向盤如果是U型方向盤,,因?yàn)槭瞧降?,?huì)加重方向盤左右感受,我們會(huì)持續(xù)優(yōu)化,,這不是什么太難的事情,。關(guān)于賬號切換的問題,是不是因?yàn)榫W(wǎng)絡(luò)原因,,在高速上,?
媒體:不是。不可能在全國各地都有網(wǎng)絡(luò),,我在上海有,,在青島有,我在黃州有,。我那臺(tái)車經(jīng)常登錄自己賬號,,用幾天之后,再用,,發(fā)現(xiàn)它又重新掃賬號,,退出了。車主賬號一直沒有切換過,。
潘云鵬:二位的問題我們記一下,,除了網(wǎng)絡(luò)以外,QQ斷流顯然是不正常的,。
媒體:其次問一下,,輕圖(音)版本大概在什么時(shí)候上?
潘云鵬:輕圖剛才已經(jīng)劇透了,,200城,,今年肯定會(huì)在上半年,爭取做一些提前的體驗(yàn)出來,。要開200城的話,,在未來一到兩個(gè)季度有比較大的變化。
王亮:200城是年度OKR,。
媒體:王亮博士,,現(xiàn)在大模型的更新,比如OCC以后對通用障礙物識別肯定更廣泛能力更強(qiáng),,現(xiàn)在我們大模型一次更新迭代的節(jié)奏是多長,?
王亮:我們有預(yù)訓(xùn)練的過程,迭代一般可以用新的數(shù)據(jù),,對問題數(shù)據(jù)進(jìn)行小的優(yōu)化,,一般小優(yōu)化比較快,一周左右,,不到一周,,很快測試出不同的版本的結(jié)果,。刷一次大的,大概在一周到兩周之間,,可以把車端幾千萬的參數(shù)模型重新刷一遍,,這還是比較敏捷,但是模型的刷,,要包含線下測試,、線上路上識路測試等,我們做的還是比較謹(jǐn)慎一些,,擔(dān)心有離線測不出來的情況,。所以大家感受上,模型發(fā)版沒有那么快,,這個(gè)點(diǎn)是后續(xù)我們要進(jìn)一步探討的,。我們會(huì)把模型驗(yàn)證做的更加充分,離線研究做的更充分,,能讓用戶更高頻更敏捷感受到大模型的迭代,。
媒體:最后一個(gè)問題,剛才講到現(xiàn)在正在開放下一代模型,,一直在看特斯拉做,,他是把車和機(jī)器人算法一塊做。現(xiàn)在從BEV到Transformer到OCC是行業(yè)通識的,,下一代在這里面,會(huì)不會(huì)是研發(fā)方向,,這里是不是可以把端到端的東西往里做,。
王亮:特斯拉內(nèi)部應(yīng)該叫V12推送,在北美已經(jīng)推送給內(nèi)部員工了,,我們看到了視頻,,有說好,有說不好的,,整體是大的趨勢,。從圖像直接到車控制,可以看成兩個(gè)大網(wǎng)絡(luò)任務(wù),,純視覺,,針對感知,檢測,、跟蹤,、語義理解、建圖在一起,,它的變化是不再直接輸出人能感覺到的,、可視化的障礙物,,而是把BEV的特征直接傳遞到下游決策規(guī)劃,決策規(guī)劃也是做成網(wǎng)絡(luò)直接學(xué)好的駕駛員的行為和軌跡,。不過這里有大的不確定性,。首先需要多少數(shù)據(jù),不好回答,,網(wǎng)絡(luò)要變得很大,。另外,駕駛還是要保持穩(wěn)定,,網(wǎng)絡(luò)是不是能保證也是一個(gè)問題,。特斯拉走的比較靠前,很多做智駕團(tuán)隊(duì)也在做嘗試,、預(yù)演,,然后像前幾年BEV+Transformer一樣,各種論文,,各種新的點(diǎn)子層出不窮,。我們比較堅(jiān)持能做出來,能落地的功能,,我們內(nèi)部也有這方面的布局,,當(dāng)然什么時(shí)間在極越車上落地,什么場景釋放,,還得等一段時(shí)間,,我們再跟媒體朋友,跟車主做交流,,大家相信,,這應(yīng)該是未來更好的讓車開的車更智能的大方向,這個(gè)過程可能也要把整個(gè)決策規(guī)劃進(jìn)行重構(gòu),,類似AI原生思維,。
媒體:OCC非常大,特斯拉推AEB性能有了很豐富的改進(jìn),,速度區(qū)間,,從以前8-150可以支持到5-200,下限5公里,,上限200公里,,橫穿障礙物,在過去用框不那么容易標(biāo)定的,,不知道技術(shù)原理的,,這些特斯拉明確說了用OCC解決。還有明確說了基于通用障礙物的AEB,,也是用OCC實(shí)現(xiàn)的,。同時(shí),,2023年,尤其下半年比較重要的趨勢,,國內(nèi)在卷AEB,,我們OCC是不是接下來有規(guī)劃強(qiáng)化極越主動(dòng)安全能力?
王亮:肯定有的,,原來車上有很多不同的網(wǎng)絡(luò),,做不同的任務(wù),AEB有自己的網(wǎng)絡(luò),,以后趨勢一定是,,從通用Vision Takes All的理念上輸出,下游各方的應(yīng)用,,都要做,,這里不止是感知,把它做出來了,,上去了,,下面都可以用了,下面還是決策規(guī)劃等等要做一定適配,,特別AEB需要大量測試的,,這個(gè)是要做,但是有一定排期,。特斯拉做的時(shí)間比我們長一點(diǎn),,我們還有需要進(jìn)一步提升的,比如視距提升,。OCC在世界坐標(biāo)系畫一個(gè)格子,,這個(gè)格子畫多大,分辨率多少,,每個(gè)格子是1米×1米,還是10厘米×10厘米這個(gè)決定你能看多遠(yuǎn),,做到多精細(xì),,這個(gè)還有逐步工程化模型調(diào)優(yōu),整個(gè)模型加速的過程,,我們會(huì)朝這個(gè)方向努力,。在后面幾個(gè)版本,你能感受到OCC變化,。要做到高速上200公里AEB,,首先看得遠(yuǎn),這個(gè)BEV和OCC都要努力夠,,做模型優(yōu)化,。BEV的橫向障礙物識別,,包括自動(dòng)學(xué)習(xí)速度預(yù)測,應(yīng)該能給橫向AEB受益的,。
媒體:高算力訓(xùn)練集群大于五千卡,,國內(nèi)大家說的比較具體,是多少EFLOPS(音),,極越是多少,?
王亮:大家可以折算一下,這個(gè)不難算,,基本是A100,、A800高算力的卡。
媒體:去年CVPR上特斯拉簡單帶了一點(diǎn)點(diǎn)關(guān)于世界模型的內(nèi)容,,這可能是在OCC之后,,下一個(gè)比較熱的東西,或者反過來說光有OCC不足以支撐智能駕駛,,它是一個(gè)階段性的終點(diǎn),。您對世界模型的看法,它有一個(gè)比較可供落地的技術(shù)路徑嗎,,我們在更長周期里有規(guī)劃嗎,?
王亮:關(guān)于世界模型,我們暫時(shí)沒有那么多的精力投入研究它,,我大概看了一些,,包括百度Apollo內(nèi)部有偏前瞻研究的部門也在看,我看到新技術(shù)很興奮,,但是怎么和自動(dòng)駕駛很密切的結(jié)合,,能讓用戶感受到明顯的變化,這個(gè)事情我沒有看那么清楚,。端到端我有一些研究,,我會(huì)看一下特斯拉,V12多多少少做出來了,,這個(gè)方向上可落地性,,不能說一點(diǎn)問題沒有,相信是肯定能做出來的,。
媒體:最后關(guān)于OCC的問題,,有一些車會(huì)有白名單,可以把視覺用提速解構(gòu),。極越是沒有白名單,,還是會(huì)有一些東西?你能看到它,或者OCC可以標(biāo)注出來,,但是不確定是好的,,你依然分辨不出來是什么樣的障礙物,有可能一個(gè)塑料袋也是標(biāo)注出來,,我們策略上是有白名單還是沒有白名單,,所有策略有減速或者繞行。
王亮:我們標(biāo)了近一百類的東西,,這不是只有這一百類,,肯定有某一類就叫其他,從OCC設(shè)計(jì)理念上肯定追求的就是去白名單化,,希望可以涌現(xiàn)障礙物識別或者通行空間識別的能力,,是它的本質(zhì),現(xiàn)在釋放的肯定是學(xué)的比較充分的,,有比較充分的數(shù)據(jù)積累,,會(huì)一步步的向用戶推送感受。現(xiàn)在雖然模型不是這么設(shè)計(jì),,但是使用上會(huì)有這種感覺,,這是跟產(chǎn)品化結(jié)合過程中的策略,為了保證大家的體驗(yàn),。OCC上車并不容易,,其實(shí)它特別難,因?yàn)樗鼤r(shí)時(shí)刻刻都在生效,,但是被你碰到解決問題的那個(gè),,可能是小概率事件,可能很多人沒有遇到過,。實(shí)時(shí)生效副作用是什么,?跟AEB比較像,它檢測不準(zhǔn),,有時(shí)候有莫名減速而讓用戶不爽,,所以我們要把這個(gè)東西調(diào)的特別好,逐步的釋放,。在很長的分類名單里,,你能感受到穩(wěn)定的障礙物,應(yīng)該會(huì)有逐步爬坡的過程,。但它設(shè)計(jì)初衷不是做白名單,肯定提升對通用的障礙物識別的能力,。
媒體:我們看特斯拉自己分享,,包括我們跟國內(nèi)其他品牌交流,大家普遍覺得要做OCC需要非常海量數(shù)據(jù),我們前面PPT說了,,百度Robotaxi本身賦能一部分,,我們積累下來的所有Robotaxi積累下來的數(shù)據(jù)都可以復(fù)用嗎,如果不是,,我們從哪個(gè)階段,,我們實(shí)現(xiàn)OCC落地不過多的依賴極越車隊(duì),而是依賴L4事業(yè)部數(shù)據(jù)解決,。
王亮:數(shù)據(jù)從哪兒來,?這個(gè)事情大家如果看百度,是有一定的優(yōu)勢,,比如量產(chǎn)車極越,,可能其他新勢力也有。這些數(shù)據(jù)既可以通過把車再武裝一些高價(jià)傳感器來收集,,比如激光雷達(dá),,也可以攢個(gè)車隊(duì)去收集。百度有兩個(gè)東西是有差異化競爭力的,,我們有近千輛的Robotaxi在全國十多個(gè)城市運(yùn)營,,每天除了一些時(shí)段沒有需求不做,其他都在做,,這部分搭載比較好的傳感器,,高精地圖等等,它可以貢獻(xiàn)數(shù)據(jù),,而且這個(gè)數(shù)據(jù)不是走流量,,有一個(gè)比較大的盤,這是我們自己運(yùn)營的車,,存儲(chǔ)的數(shù)據(jù)比較全,,可以像圖書館一樣,你想要什么索引就好了,,把它拉出來,。另一個(gè)差異化是,我們有百度地圖,,百度地圖會(huì)往全國各地撒出很多的采集車,,采集車也是有攝像頭、激光雷達(dá)去制高精地圖,、SD地圖,,這個(gè)數(shù)據(jù)跟我們開城層面或者OCC很好的協(xié)同。我們跑的城市,,地圖在幾個(gè)月之前已經(jīng)跑過一遍,,而且這個(gè)數(shù)據(jù)也是全量落得。
媒體:地圖采集數(shù)也是像圖書館索引一樣調(diào)取,?
王亮:而且比RT覆蓋更好,,RT是在限定區(qū)域跑很久,基本上把區(qū)域吃的比較透,。地圖的車跟我們開城是強(qiáng)綁定的,,像先頭部隊(duì)一樣,基本把每一寸道路丈量之后,,數(shù)據(jù)采回來,,我們可以用這個(gè)數(shù)據(jù)做我們網(wǎng)絡(luò)。我們做的算比較快,,極越不是第一個(gè)做電動(dòng)車,,我們不是第一個(gè)做智駕產(chǎn)品,我們的速度可以看到,,基本做到什么事情說到做到,,按時(shí)交付、快速迭代,,這跟百度自己內(nèi)部數(shù)據(jù)儲(chǔ)備,,自身的優(yōu)勢是有關(guān)系的。這四者都有,,而且極越的車日后會(huì)發(fā)揮越來越大的作用,。百度的特殊車輛,包括還會(huì)有一些特殊的能力,,我們需要在極越車上再加裝一些很高端的東西,,還是用這個(gè)邏輯,把高端傳感器的能力學(xué)到攝像頭上,,不斷的重復(fù)這個(gè)過程,,我們純視覺能力可以媲美激光雷達(dá),這是我們遲早會(huì)做到的一件事情,。
媒體:我有一些關(guān)于座艙和車機(jī),、智能駕駛方面的疑問,第一個(gè),,文心一言4.0版本上線之后,,它的交流能力和獲取信息能力非常強(qiáng),它的使用場景僅限在座艙里,,它得到的結(jié)果能不能和手機(jī)APP有更好的連接,,比如用戶可以通過手機(jī)APP看到你跟文心一言交流的內(nèi)容,包括它幫你解決的問題,,可以用回答的方式體現(xiàn)在APP里,?
第二個(gè)問題,,在極越01首發(fā)新車有補(bǔ)盲功能,補(bǔ)盲功能是開車門盲區(qū)監(jiān)測,,現(xiàn)在1.3.1上了打燈的盲區(qū),但是盲區(qū)畫面還是小,,它本身來說整個(gè)車機(jī)屏幕是非常大的,。
第三個(gè)問題,極越01車機(jī)風(fēng)格是太冷了,,太像機(jī)器人了,,百度地圖是有很多好玩的功能,有很多語音包,,還有其他百度功能特有的,,這個(gè)功能能不能上線到極越01車上。這個(gè)應(yīng)該是吉利系造車問題,,電門總感覺有延遲,。單踏板高電量和低電量下的標(biāo)定不統(tǒng)一。
極越01自動(dòng)泊車做的很牛,,為什么在解安全帶后會(huì)自動(dòng)停止,,甚至它沒有更好的提示。
最后一個(gè)問題,,關(guān)于輕圖覆蓋問題,,輕圖覆蓋需要一段時(shí)間,在輕圖覆蓋之前,,對于基礎(chǔ)LCC的功能上有沒有提升,?比如很多其他友商做的識別紅綠燈、穿過無標(biāo)簽的路口,,提升它基礎(chǔ)LCC的能力,。
王亮:輕圖希望下次有分享,剛才還有一個(gè)能力沒有寫,,視覺建圖能力,,我們也會(huì)有一版大的迭代,是整個(gè)原理上的改變,,這個(gè)東西上了之后,,替換掉現(xiàn)在LCC使用的車道線檢測,輕圖做無圖紅綠燈,,這是順帶的,,ACC/LCC能力肯定是可以讓輕圖方案受益的,我們是一套感知的中央的服務(wù),,服務(wù)各個(gè)應(yīng)用,,所以肯定會(huì)做,。
潘云鵬:現(xiàn)在圖做的比較好的百度、高德,,在地圖這件事情上,輕圖挺快的,,可能比大家想象的快,整個(gè)百度地圖所覆蓋到的輕圖制成的范圍,,比大家想象的都要快,。
關(guān)于盲區(qū)畫面的問題,1.3.1會(huì)變大,,我們也意識到它太小,,后面會(huì)優(yōu)化,會(huì)和你看后視鏡的感覺是類似的,。
關(guān)于文心一言的問題,,我們有兩個(gè)比較大的思考,后面做大模型本地化的支持,,這次文心一言原聲支持只是起點(diǎn),,代表了我們在座艙的思考,,剛才你提到手圖上V19開始的大模型的集成,,這后面肯定很快,我們畢竟是在基于大模型作為OS去嫁接文心一言,、地圖,,或者別的多媒體應(yīng)用。我們肯定可以把文心一言數(shù)據(jù)導(dǎo)出來的,。
電門問題,,我不是特別專業(yè),我也是遇到充滿電之后,,會(huì)更活躍,,動(dòng)力變得更好,相反電力匱乏的時(shí)候變得稍微差一點(diǎn),,總體而言這是留給更專業(yè)的同事解答,。
媒體:第二個(gè)問題,去年有一段時(shí)間,,包括從極越開始,,開始說純視覺路線,,但我注意到去年年末今年年初,大家又把激光雷達(dá)提出來,,可能因?yàn)槿ツ?1月份L3相關(guān)規(guī)范下發(fā)了,現(xiàn)在行業(yè)有一種探討或者說法,,如果后面做到L3級別,,可能需要用到激光雷達(dá)做冗余傳感器,我可能要實(shí)現(xiàn)特殊路段脫眼脫手,,如果做純視覺OCC路線,,這塊我們怎么考慮的?還是以后L3標(biāo)準(zhǔn)車型也會(huì)再加一些不一定是激光雷達(dá),,是不是加一些其他的傳感器作為冗余,?
王亮:傳感器分兩種,一種是被動(dòng)光,,像攝像頭,跟人眼成像原理比較一致,。還有主動(dòng)光,,激光雷達(dá),現(xiàn)在還有毫米波能起到主動(dòng)光測距,,作為冗余的作用,。我部門是做智駕解決方案,,目前還沒有收到非常明確的需求,以我目前的認(rèn)知感覺,,現(xiàn)在做的脫手還是要求大家關(guān)注路況,,做到脫眼脫手需要加一定的冗余,這個(gè)冗余是什么原理的傳感器,,還有討論的空間,,但不論什么,視覺是基礎(chǔ),,其他不能用的那么重,,不然就沒有替換的可行性。應(yīng)該是在很強(qiáng)的視覺能力下,,加上主動(dòng)光傳感器是比較好的,。
媒體:今年我們看到行業(yè)里在提無高清地圖的概念,我們試駕很多車型,,從體驗(yàn)的角度來看,,如果是有圖,有高清,,數(shù)據(jù)不錯(cuò)的情況下,,整體體驗(yàn)是一定會(huì)比輕圖或無圖好,我們要解決泛化問題,,大家都在走這條路線,,我特別好奇,極越,,包括百度在地圖上有自己的優(yōu)勢,,如果你們做輕圖,你們會(huì)傾向于用什么樣的方式,?我們知道現(xiàn)在行業(yè)有兩種方式,,一種是通過用戶車隊(duì)方式提前對于路線進(jìn)行先驗(yàn)的方式。還有通過模型的方式,,不停的在云端訓(xùn)練路口的模型,,看過很多路口,大概這個(gè)路口就會(huì)走了,。我們大概用什么樣的路線,?還是自己的優(yōu)勢的路線?
王亮:從本質(zhì)上,,像極越這樣定位的車型車企,,追求的是最好用戶體驗(yàn)的,,還是要做到隨時(shí)隨地。現(xiàn)在有一種叫通勤模式,。我個(gè)人感覺,,極越明年可能有一些主流大的城市都會(huì)有比較多的店,當(dāng)然會(huì)有用戶在沒有極越的店的情況下買到車,,我們也要支持,。這是增加用戶滲透率的有效方式,這是我們在產(chǎn)品功能上的支持,。在技術(shù)方案上我們要做到泛化,,我們要看過足夠多的路口,甚至利用百度地圖優(yōu)勢,,我們肯定有別人沒有的東西,,內(nèi)部給我們的數(shù)據(jù)和接口,我們會(huì)有人無我有的差異化的競爭力,,肯定要做到極越鋪墊的主流城市里,做到哪里都能用,。
潘云鵬:這里涉及到兩個(gè)不同的方法,,我們能夠冷啟動(dòng),基本買到之后就能用,,因?yàn)槲覀冇械貓D上面的長期的積累,,因此在大部分的地區(qū),在主要銷售地區(qū)都會(huì)以這種方式完成這個(gè)任務(wù),。中國比較大,,在一些特別相對而言沒有辦法覆蓋到的場景下,總體而言,,我們還是追求冷啟動(dòng),,追求從A點(diǎn)到B點(diǎn)PPA的體驗(yàn)。(編譯/汽車之家 姚宇)