[汽車之家 行業(yè)] 5月16日,,2023中國(亦莊)智能網(wǎng)聯(lián)汽車科技周暨第十屆國際智能網(wǎng)聯(lián)汽車技術(shù)年會在京舉行,,大會主題涵蓋了智能網(wǎng)聯(lián)汽車戰(zhàn)略引領(lǐng),、技術(shù)創(chuàng)新、生態(tài)賦能,、商業(yè)化推進,、跨界融合等多個版塊,同時聚集了全球頂級專家,、政策制定者,、產(chǎn)業(yè)領(lǐng)袖、投資機構(gòu)等多方人員的參與,,旨在進一步促進智能網(wǎng)聯(lián)汽車技術(shù)進步與商業(yè)化應(yīng)用,。
在“CICV2023運載裝備智能感知技術(shù)與應(yīng)用研討會議”現(xiàn)場,地平線智能駕駛算法研發(fā)負責人蘇治中圍繞“軟件2.0時代的自動駕駛感知技術(shù)”發(fā)表了演講,。
以下內(nèi)容為現(xiàn)場演講實錄:
我今天匯報的主題叫軟件2.0時代的自動駕駛感知技術(shù),。我今天分享的內(nèi)容主要有三部分,第一是軟件2.0與智能汽車的行業(yè)趨勢,,第二部分是端云協(xié)同的自動駕駛感知技術(shù),,第三部分是自動駕駛端到端算法趨勢。
首先是軟件2.0與智能汽車的行業(yè)趨勢,。 在2012年AlexNet出現(xiàn)之后,,深度學(xué)習(xí)已經(jīng)統(tǒng)治了計算視覺這個領(lǐng)域十多年,,深度學(xué)習(xí)的出現(xiàn)使得過去由問題拆分的傳統(tǒng)CV算法逐步過渡到了端到端由深度學(xué)習(xí)驅(qū)動的算法,深度學(xué)習(xí)驅(qū)動的算法最大的好處就是它能夠通過計算和數(shù)據(jù)帶來性能持續(xù)的提升,,不像傳統(tǒng)的CV算法可能需要很多專家手動設(shè)計一些特征去解決問題,,存在低效的情況。
實際上現(xiàn)在軟件2.0已經(jīng)是一個大家非常熟知的概念,,它主要的idea,,不通過問題拆分,也不通過專家經(jīng)驗,、人工邏輯設(shè)計,,而是完全通過數(shù)據(jù)和計算驅(qū)動的模式,來去解決問題,。在過去一段時間,,可能從2012年到2019、2020年之前,,大家關(guān)注到更多還是在NLP領(lǐng)域或者計算機視覺領(lǐng)域,,深度學(xué)習(xí)所扮演的重要角色,近來隨著GPT等模型的出現(xiàn),,我們關(guān)注到深度學(xué)習(xí)能夠更加以端到端形式,,去實現(xiàn)通用的人工智能。正是這幾年算法的發(fā)展,,推動了汽車的智能化,。過去的汽車,大家更多理解為是一個車輪子上的沙發(fā),,帶著大家安全舒適從另一個地方到達另一個地方�,,F(xiàn)在大家對智能汽車的認識發(fā)生了非常大的變化,我們更多地把它看作是一個智能出行的助理,,它是一個車輪子上的智能器人,,因此我們認為智能汽車是一個堪比計算機誕生顛覆性的創(chuàng)新,是因為我們認為智能汽車會是自主機器人的第一個形態(tài),。隨著它不斷的進化,,智能汽車能夠在大街上實現(xiàn)高級別自動駕駛,其實背后所驅(qū)動的技術(shù)和基礎(chǔ)設(shè)施的發(fā)展會帶來自主機器人快速的發(fā)展和落地,。有非常多的專家和行業(yè)伙伴有這樣的認識,,包括前一段時間,陸奇博士也提到過智能汽車正在成為人類科技發(fā)展史最大的母生態(tài),。
在自動駕駛領(lǐng)域,,我們觀察到了數(shù)據(jù)驅(qū)動的算法正在逐步替代規(guī)則實現(xiàn)的算法,雖然我們今天講的是感知,但實際上數(shù)據(jù)驅(qū)動的算法,,也就是深度學(xué)習(xí)正在替代包括融合,、規(guī)劃和控制所有自動駕駛的模塊。自動駕駛對于深度學(xué)習(xí)性能的要求和大模型的發(fā)展,,其實驅(qū)動了算力持續(xù)的提升,,通常在端上使用的模型容量可能并不會特別大,現(xiàn)在的自動駕駛系統(tǒng)更多是端云協(xié)同的系統(tǒng),,其實在云端它往往會需求更大的計算量,。
算力的需求也驅(qū)動了我們需要有新的計算架構(gòu),在過去大家更加會聚焦于CPU或者GPU,,但其實智能駕駛需要更專用的,、并且更高效的計算架構(gòu),不管是在功耗上還是性能上,,這是地平線成立的初衷,也是我們始終不斷堅持探索的方向,。前不久在上海國際車展,,地平線剛剛發(fā)布了最新一代智能駕駛加速引擎,我們稱之為納什架構(gòu),。納什架構(gòu)將會在地平線下一代芯片上率先應(yīng)用,,會在很快的未來達到落地量產(chǎn),它不僅提供了更大的算力,,也提供了更高的靈活性,,同時也能夠更好地支持像Transformer這樣更先進、更具備趨勢性的模型,,這里也列出了納什架構(gòu)的8個很重要的核心技術(shù)突破點,,在這里就不為大家做詳細的介紹。
接下來我來為大家分享我們的一些實踐,,首先現(xiàn)在大家也普遍認識到,,自動駕駛不僅僅是一個端上的系統(tǒng),它更多是一個端云協(xié)同的系統(tǒng),,我們要在端上去執(zhí)行我們的模型,,執(zhí)行我們的系統(tǒng),去做實時的感知,、建模,、定位、規(guī)控等等,,但同樣在云端我們也需要一套完整的系統(tǒng)去獲取數(shù)據(jù),,去生成真值,去做仿真,為端上的系統(tǒng)提供訓(xùn)練和仿真評測的環(huán)境,。
第一部分為大家分享端上的部分,,首先這里是我們在征程5上BEV時空融合的架構(gòu),當前在自動駕駛感知領(lǐng)域,,BEV是一個大家非常熟知也非常流行,,每個團隊都在大力去做的非常有優(yōu)勢的架構(gòu)。地平線也研發(fā)了自己的BEV時空融合架構(gòu),,它也會在今年在國內(nèi)一個非常主要車企的主要車型上完成量產(chǎn),。這是我們完整的架構(gòu),我們針對不同的合作伙伴,、車型或客戶也會有一定的定制化或者是裁減,,并不是每個車型都是11個攝像頭和Lidar,可能會有7個攝像頭,、Lidar等等不同的配置.這套架構(gòu)能夠?qū)崿F(xiàn)神經(jīng)網(wǎng)絡(luò)源生的輸出,,360感知的全要素,并且能夠去通過模型完成感知融合,、建模和軌跡預(yù)測,,也正是通過這樣的端上實時的感知和建圖,我們能夠不依賴高精地圖,,或者降低對于地圖的依賴,,而達成城區(qū)自動駕駛功能,同時在復(fù)雜路況下也有很好的處理能力,。
下面的框圖展示了我們的一個模型結(jié)構(gòu)的框圖,,在camera或者Lidar信號進來之后我們會先做特征提取,之后經(jīng)過視角變換和空間融合,,再結(jié)合多幀的時序融合,,再經(jīng)過第二階段的特征結(jié)合refinement,最后是到達這個模型Head輸出的部分,,大家可以看到這套框架同時能夠完成空間,、時間以及多個模態(tài),就是Lidar和camera的融合,。在這樣一個框架里,,BEV特征融合的算法至關(guān)重要,因此我們也自研了GKT BEV感知算法(Geometry-guided kernel BEV),,是一套基于Transformer的架構(gòu),,因為我們大概可以認為當前BEV算法有三類,基于特征IPM視角轉(zhuǎn)換,,基于Transformer以及基于LSS三類算法,,基于Transformer的方案它會有更好的性能和更強的泛化性,,但它的缺點就是全局attention會帶來比較大的算力和帶寬的需求,我們通過Geometry-guided kernel的方式來降低對于全局attention的需要,,大幅提升效率,,同時Transformer的方法相比LSS對嵌入式平臺是更友好的,這套方法在征程5上能夠達到一個非常高的幀率,。
像我剛才講的整套架構(gòu)是支持多模態(tài)特征融合,,多模態(tài)的融合分為前融合、中融合和后融合,,后融合就是目標級融合,,跟咱們講的軟件2.0范式不符合,因為它涉及到非常多人工邏輯的計算,。前融合我們通常認為是信號級的融合,,camera跟Lidar點云的直接融合,這個方案由于是Lidar跟camera的幀率不同,,掃描方式不同,,非常難以做信號級的對齊,因此我們會采取這種中融合,,就是特征級的融合,,它分別是用camera提取BEV特征,Lidar提取特征,,在特征級別去完成一個融合。
我們這一套BEV架構(gòu)支持不同的傳感器配置,,同時支持在不同傳感器配置下多尺度的輸出和可拓展的應(yīng)用,,右邊展示了我們在BEV大的Feature Map上面可以通過取LI的方式取出不同的范圍達成不同的功能,比如小范圍更多是支持泊車,,而最長的大范圍能夠支持高速,,因為高速上往往需要更遠距離的感知,中短范圍能夠在城區(qū)更好的處理好路口,。在BEV感知框架里面可以看到,,感知中兩個非常大的模塊,分別就是靜態(tài)和動態(tài),,靜態(tài)就是實時的局部的地圖的構(gòu)建,,我們稱之為地圖感知,地平線也自研了這樣一套矢量化的地圖感知方案,,它前面也是基于一個BEV的特征融合的模塊,,可以采用GKT,也可以采用其他的,,主要的部分是在Head部分,,它是通過一個Transformer的結(jié)構(gòu)去實時的輸出instance level的地圖要素,,比如說車道線、人行道等等,,避免了這些后處理和后處理中所涉及到對于CPU的需求,,對于邏輯計算的需求,對于工程師手寫代碼的需要,。
動態(tài)感知,,我們是采用了一個端到端的范式,就是從檢測到跟蹤,,再到預(yù)測,,如果我們想要做預(yù)測的話是需要有靜態(tài)的要素,因為車輛周圍行駛軌跡其實跟車道線是密切相關(guān)的,,因此這張圖上展現(xiàn)了我們會通過一個多任務(wù)的模型,,同時去輸出Map靜態(tài)感知,也會輸出3D的動態(tài)目標檢測,,結(jié)合這兩個Head我們會再去做動態(tài)目標的軌跡預(yù)測,,也是通過這樣一個端到端的范式,進一步的去增強了跟蹤和預(yù)測的性能,,同時也減少了我們對于后處理的依賴,。
現(xiàn)在隨著自動駕駛技術(shù)的發(fā)展,隨著它落地的增加,,我們逐步的發(fā)現(xiàn)僅僅達成靜態(tài)和動態(tài)感知其實并不足以完成自動駕駛,,很重要的原因就是場景中有很多一般障礙物,一般障礙物我們是很難用語義去窮盡的,,比如說馬路上有一個紙箱子,,要定義紙箱的類別,這個是難以覆蓋的,, 因此我們也需要通過一些幾何的方式去理解這個場景的幾何構(gòu)造,,同時覆蓋一般障礙物的感知,因此3D Occupancy是一個非常好的解決范式,,在之前的Tesla AI Day上大家也看到過Tesla 3D Occupancy算法方案,,它是輸出一個3D的占有,就是XYZ跟一個feature vector,,它對于帶寬和計算量的要求都是非常高的,,因此我們在征程5上也是采用了BEV2D的Freespace+BEV elevation里完成3D Occupancy感知任務(wù),因此在這個圖中,,我們也看到在BEV之后只有兩個Head,,一個是用來估計每一個BEV上面的高度,另外一個Head是用來估計每個BEV格子是否被占用,。這一頁展示了3D Occupancy當前的一個demo視頻,,可以看到它針對這些突出的路沿,、花壇以及道路中間的隔離帶都能有非常好的響應(yīng),而像這個花壇,、隔離帶如果我們用語義分割的手段解決的話,,可能是很難窮盡這些場景的。
盡管說BEV是當下最為主流的一個感知的范式,,但我們同時也在不斷的探索稀疏實例目標檢測的技術(shù),,原因也是BEV也存在一定的局限性,主要有幾個方面,,一個我們在做BEV的過程中需要對特征做一些壓縮,,再做稠密的視角轉(zhuǎn)換,這個過程往往會帶來分辨率的損失,,而且稠密的視角轉(zhuǎn)換其實會帶來很大的帶寬的損耗,、帶寬的占用。另外BEV它的感知范圍是局限于BEV的Greatmap的,,如果說我們構(gòu)建一個非常大的Greatmap,,它可能會占據(jù)很大的算力和帶寬,而構(gòu)建較小的Greatmap,,又影響遠距離感知,,因此我們基于DETR的Transformer的范式去研發(fā)了稀疏實例動態(tài)目標,它不需要做dense view transformer,,也不需要向傳統(tǒng)的基于Transformer的BEV做很多全局的attention,,同時它通過稀疏的范式,當前性能已經(jīng)超過了所有Sparse目標檢測方法和絕大部分BEV的方法,此外Sparse的范式也很容易可以應(yīng)用到地圖感知和靜態(tài)和一般障礙物,。
接下來是端云協(xié)同系統(tǒng)中云端的部分,,我重點會講跟感知相關(guān)的,尤其是4D標注的部分,, 我們在云端構(gòu)建最重要的系統(tǒng)就是4D智能化的標注,它主要由四個大的模塊和流程組成,,分別是數(shù)據(jù)采集,、4D的場景重建、大模型的預(yù)刷和人工質(zhì)檢和編輯,,它能夠把這個感知的輸出空間從2D映射到3D,,所以我們所有的標注也都是在3D之下去完成的。所謂4D就是結(jié)合了時序,,4D標注第一步就是完成4D的重建,,4D重建有兩個大的環(huán)節(jié),第一個部分是單幀的重建,,這是基于比較經(jīng)典的SLAM技術(shù),,基于camera和lidar多模態(tài)的重建,。第二個部分是多趟的聚合,單趟很難掃描完整個場景,,因此通過多趟的聚合,,能夠把這個場景達成一個更好的完整的感知,這是上面的通路,,就是針對靜態(tài)和靜態(tài)環(huán)境,。不需要關(guān)注動態(tài)目標,底下主要是基于Lidar跟camera同時去檢測和感知場景中的動態(tài)目標,,通過云端大模型得到高精度感知的結(jié)果,,這兩個融合之后就得到了4D場景中的完整信息,這動態(tài)和靜態(tài)所具有的完整信息在經(jīng)過模型預(yù)刷和標注之后,,就能夠給所有的BEV的任務(wù)提供一個監(jiān)督信息,。
除了動態(tài)和靜態(tài),就像我們剛剛講到非常重要的就是Occupancy占用柵格,,主要是為了解決場景中一般的障礙物,,因此我們構(gòu)建了多模態(tài)的一般障礙物的幀值生成的方案,它能夠把路面非常小的凸起形成一個很好的建模,,去供3D Occupancy模型做一個學(xué)習(xí),,之后再供給自動駕駛系統(tǒng)去應(yīng)用。當然多模態(tài)的技術(shù)盡管能夠達到很高的精度,,但它的局限性是需要車上有雷達,,但我們大部分的量產(chǎn)車上是不會安裝雷達的,因此純視覺的點云重建,,純視覺的4D場景重建對我們來說都是非常重要的,,這個決定了未來數(shù)據(jù)能不能更大規(guī)模的上量,更大規(guī)模的去完成一個標注和對模型的監(jiān)督,,當前我們已經(jīng)是能夠通過純視覺的重建達到接近多模態(tài)視覺得效果,,暫時還沒有在量產(chǎn)中去應(yīng)用.除了純視覺點云,現(xiàn)在NeRF也是大家廣為關(guān)注的算法,,相比點云它能夠給場景提供更稠密的重建,,并且可以去實時的恢復(fù)這些所有的視角,并且做視角的轉(zhuǎn)換,,同樣是我們當前仍然在研發(fā)還沒有在量產(chǎn)中使用的算法,。當前4D智能標注已經(jīng)支持了非常豐富的任務(wù),像這里列出BEV的分割,、3D的車位,、靜態(tài)全要素、3D目標檢測等等,。
下面我跟大家講講我們對于自動駕駛端到端算法趨勢的看法,,前面一直在講軟件2.0,,實際上軟件2.0驅(qū)動自動駕駛端到端已經(jīng)是一個行業(yè)的共識,前面我給大家展示了我們在動態(tài)目標這一部分已經(jīng)使用了檢測跟蹤到預(yù)測的端到端,,但實際上這個還可以進一步往后去發(fā)展,,去結(jié)合包括我們環(huán)境的認知,比如道路的拓撲邏輯關(guān)系的感知,,以及到基于深度學(xué)習(xí)的Planner到Control,,其實都是可以被端到端的訓(xùn)練去落地的。在去年已經(jīng)誕生了非常多特別優(yōu)秀的一些端到端的算法工作,,可以看出大家對這個方面都在做很多的工作,,并且去努力朝這個方向發(fā)展,之前我們看到特斯拉的FSD會在V12版本發(fā)布一個端到端的方案,,地平線研發(fā)了基于Vector表達的一套端到端的自動駕駛算法,,我們稱作VAD,跟大部分的普通端到端算法不同,,VAD是將場景表達為向量,,而不是柵格,這種方式能夠顯著的提升inference的速度,,并且在訓(xùn)練的階段通過向量的方式來施加顯示的監(jiān)督約束,,當前這套方法已經(jīng)在nuScenes dataset 上取得了端到端到planning的指標。
現(xiàn)在ChatGPT,、GPT4都非�,;穑覀冋J為GPT4對于自動駕駛端到端也有非常大的啟示,,這里展示了inference GPT講的三步instruction GPT訓(xùn)練范式,,第一步是文本的自監(jiān)督預(yù)訓(xùn)練,第二步是通過人工智能撰寫的問答對去做監(jiān)督學(xué)習(xí),,最后一部分是human feedback的強化學(xué)習(xí),,基于這樣一個啟示,我們也認為端到端自動駕駛的訓(xùn)練范式會非常類似于GPT的訓(xùn)練范式,,首先也需要多模態(tài)自監(jiān)督的預(yù)訓(xùn)練,,這個跟文本不一樣,它需要Lidar,、camera、包括自監(jiān)督在內(nèi)的文本訓(xùn)練,。之后我們需要這些子模塊的監(jiān)督訓(xùn)練,,還是需要一部分數(shù)據(jù),有標注做一些監(jiān)督,。第三個imitation learning它是學(xué)人怎么做,,最后一部分我們也是通過RL來對齊它跟人的價值觀,,并且去做好一些兜底。
以上是我們對于端到端的一些思考,,最后是我們簡要一些成果的展示,,首先是我們城區(qū)的復(fù)雜場景自動駕駛展示,總的來講基于征程5 城區(qū)NOA的方案,,能夠在這些復(fù)雜拓撲無保護左轉(zhuǎn),、無保護右轉(zhuǎn)、擁堵的博弈匯出等等復(fù)雜場景上達到一個純視覺城區(qū)非常好的性能,,同時我們也在多次自動駕駛學(xué)術(shù)競賽中取得優(yōu)異的成績,,當前地平線的征程系列芯片已經(jīng)在50款車型上量產(chǎn)上市達到300萬片芯片的出貨,已經(jīng)定點車型是超過120款,,去年我們在L2+標配市場達到了市場份額的第一,。
好評理由:
差評理由: