[汽車之家 行業(yè)] 5月16日,2023中國(亦莊)智能網(wǎng)聯(lián)汽車科技周暨第十屆國際智能網(wǎng)聯(lián)汽車技術年會在京舉行,,大會主題涵蓋了智能網(wǎng)聯(lián)汽車戰(zhàn)略引領,、技術創(chuàng)新、生態(tài)賦能,、商業(yè)化推進,、跨界融合等多個版塊,,同時聚集了全球頂級專家、政策制定者,、產(chǎn)業(yè)領袖,、投資機構等多方人員的參與,旨在進一步促進智能網(wǎng)聯(lián)汽車技術進步與商業(yè)化應用,。
在“CICV2023運載裝備智能感知技術與應用研討會議”現(xiàn)場,,地平線智能駕駛算法研發(fā)負責人蘇治中圍繞“軟件2.0時代的自動駕駛感知技術”發(fā)表了演講。
以下內(nèi)容為現(xiàn)場演講實錄:
我今天匯報的主題叫軟件2.0時代的自動駕駛感知技術,。我今天分享的內(nèi)容主要有三部分,,第一是軟件2.0與智能汽車的行業(yè)趨勢,第二部分是端云協(xié)同的自動駕駛感知技術,,第三部分是自動駕駛端到端算法趨勢,。
首先是軟件2.0與智能汽車的行業(yè)趨勢。 在2012年AlexNet出現(xiàn)之后,,深度學習已經(jīng)統(tǒng)治了計算視覺這個領域十多年,,深度學習的出現(xiàn)使得過去由問題拆分的傳統(tǒng)CV算法逐步過渡到了端到端由深度學習驅(qū)動的算法,深度學習驅(qū)動的算法最大的好處就是它能夠通過計算和數(shù)據(jù)帶來性能持續(xù)的提升,,不像傳統(tǒng)的CV算法可能需要很多專家手動設計一些特征去解決問題,,存在低效的情況。
實際上現(xiàn)在軟件2.0已經(jīng)是一個大家非常熟知的概念,,它主要的idea,,不通過問題拆分,也不通過專家經(jīng)驗,、人工邏輯設計,,而是完全通過數(shù)據(jù)和計算驅(qū)動的模式,來去解決問題,。在過去一段時間,,可能從2012年到2019、2020年之前,,大家關注到更多還是在NLP領域或者計算機視覺領域,,深度學習所扮演的重要角色,近來隨著GPT等模型的出現(xiàn),,我們關注到深度學習能夠更加以端到端形式,,去實現(xiàn)通用的人工智能。正是這幾年算法的發(fā)展,,推動了汽車的智能化,。過去的汽車,大家更多理解為是一個車輪子上的沙發(fā),,帶著大家安全舒適從另一個地方到達另一個地方�,,F(xiàn)在大家對智能汽車的認識發(fā)生了非常大的變化,,我們更多地把它看作是一個智能出行的助理,它是一個車輪子上的智能器人,,因此我們認為智能汽車是一個堪比計算機誕生顛覆性的創(chuàng)新,,是因為我們認為智能汽車會是自主機器人的第一個形態(tài)。隨著它不斷的進化,,智能汽車能夠在大街上實現(xiàn)高級別自動駕駛,,其實背后所驅(qū)動的技術和基礎設施的發(fā)展會帶來自主機器人快速的發(fā)展和落地。有非常多的專家和行業(yè)伙伴有這樣的認識,,包括前一段時間,,陸奇博士也提到過智能汽車正在成為人類科技發(fā)展史最大的母生態(tài)。
在自動駕駛領域,,我們觀察到了數(shù)據(jù)驅(qū)動的算法正在逐步替代規(guī)則實現(xiàn)的算法,,雖然我們今天講的是感知,但實際上數(shù)據(jù)驅(qū)動的算法,,也就是深度學習正在替代包括融合、規(guī)劃和控制所有自動駕駛的模塊,。自動駕駛對于深度學習性能的要求和大模型的發(fā)展,,其實驅(qū)動了算力持續(xù)的提升,通常在端上使用的模型容量可能并不會特別大,,現(xiàn)在的自動駕駛系統(tǒng)更多是端云協(xié)同的系統(tǒng),,其實在云端它往往會需求更大的計算量。
算力的需求也驅(qū)動了我們需要有新的計算架構,,在過去大家更加會聚焦于CPU或者GPU,,但其實智能駕駛需要更專用的、并且更高效的計算架構,,不管是在功耗上還是性能上,,這是地平線成立的初衷,也是我們始終不斷堅持探索的方向,。前不久在上海國際車展,,地平線剛剛發(fā)布了最新一代智能駕駛加速引擎,我們稱之為納什架構,。納什架構將會在地平線下一代芯片上率先應用,,會在很快的未來達到落地量產(chǎn),它不僅提供了更大的算力,,也提供了更高的靈活性,,同時也能夠更好地支持像Transformer這樣更先進、更具備趨勢性的模型,,這里也列出了納什架構的8個很重要的核心技術突破點,,在這里就不為大家做詳細的介紹,。
接下來我來為大家分享我們的一些實踐,首先現(xiàn)在大家也普遍認識到,,自動駕駛不僅僅是一個端上的系統(tǒng),,它更多是一個端云協(xié)同的系統(tǒng),我們要在端上去執(zhí)行我們的模型,,執(zhí)行我們的系統(tǒng),,去做實時的感知、建模,、定位,、規(guī)控等等,但同樣在云端我們也需要一套完整的系統(tǒng)去獲取數(shù)據(jù),,去生成真值,,去做仿真,為端上的系統(tǒng)提供訓練和仿真評測的環(huán)境,。
第一部分為大家分享端上的部分,,首先這里是我們在征程5上BEV時空融合的架構,當前在自動駕駛感知領域,,BEV是一個大家非常熟知也非常流行,,每個團隊都在大力去做的非常有優(yōu)勢的架構。地平線也研發(fā)了自己的BEV時空融合架構,,它也會在今年在國內(nèi)一個非常主要車企的主要車型上完成量產(chǎn),。這是我們完整的架構,我們針對不同的合作伙伴,、車型或客戶也會有一定的定制化或者是裁減,,并不是每個車型都是11個攝像頭和Lidar,可能會有7個攝像頭,、Lidar等等不同的配置.這套架構能夠?qū)崿F(xiàn)神經(jīng)網(wǎng)絡源生的輸出,,360感知的全要素,并且能夠去通過模型完成感知融合,、建模和軌跡預測,,也正是通過這樣的端上實時的感知和建圖,我們能夠不依賴高精地圖,,或者降低對于地圖的依賴,,而達成城區(qū)自動駕駛功能,同時在復雜路況下也有很好的處理能力,。
下面的框圖展示了我們的一個模型結構的框圖,,在camera或者Lidar信號進來之后我們會先做特征提取,之后經(jīng)過視角變換和空間融合,再結合多幀的時序融合,,再經(jīng)過第二階段的特征結合refinement,,最后是到達這個模型Head輸出的部分,大家可以看到這套框架同時能夠完成空間,、時間以及多個模態(tài),,就是Lidar和camera的融合。在這樣一個框架里,,BEV特征融合的算法至關重要,,因此我們也自研了GKT BEV感知算法(Geometry-guided kernel BEV),是一套基于Transformer的架構,,因為我們大概可以認為當前BEV算法有三類,,基于特征IPM視角轉(zhuǎn)換,基于Transformer以及基于LSS三類算法,,基于Transformer的方案它會有更好的性能和更強的泛化性,,但它的缺點就是全局attention會帶來比較大的算力和帶寬的需求,我們通過Geometry-guided kernel的方式來降低對于全局attention的需要,,大幅提升效率,,同時Transformer的方法相比LSS對嵌入式平臺是更友好的,這套方法在征程5上能夠達到一個非常高的幀率,。
像我剛才講的整套架構是支持多模態(tài)特征融合,,多模態(tài)的融合分為前融合、中融合和后融合,,后融合就是目標級融合,跟咱們講的軟件2.0范式不符合,,因為它涉及到非常多人工邏輯的計算,。前融合我們通常認為是信號級的融合,camera跟Lidar點云的直接融合,,這個方案由于是Lidar跟camera的幀率不同,,掃描方式不同,非常難以做信號級的對齊,,因此我們會采取這種中融合,,就是特征級的融合,它分別是用camera提取BEV特征,,Lidar提取特征,,在特征級別去完成一個融合。
我們這一套BEV架構支持不同的傳感器配置,,同時支持在不同傳感器配置下多尺度的輸出和可拓展的應用,,右邊展示了我們在BEV大的Feature Map上面可以通過取LI的方式取出不同的范圍達成不同的功能,比如小范圍更多是支持泊車,,而最長的大范圍能夠支持高速,,因為高速上往往需要更遠距離的感知,,中短范圍能夠在城區(qū)更好的處理好路口。在BEV感知框架里面可以看到,,感知中兩個非常大的模塊,,分別就是靜態(tài)和動態(tài),靜態(tài)就是實時的局部的地圖的構建,,我們稱之為地圖感知,,地平線也自研了這樣一套矢量化的地圖感知方案,它前面也是基于一個BEV的特征融合的模塊,,可以采用GKT,,也可以采用其他的,主要的部分是在Head部分,,它是通過一個Transformer的結構去實時的輸出instance level的地圖要素,,比如說車道線、人行道等等,,避免了這些后處理和后處理中所涉及到對于CPU的需求,,對于邏輯計算的需求,對于工程師手寫代碼的需要,。
動態(tài)感知,,我們是采用了一個端到端的范式,就是從檢測到跟蹤,,再到預測,,如果我們想要做預測的話是需要有靜態(tài)的要素,因為車輛周圍行駛軌跡其實跟車道線是密切相關的,,因此這張圖上展現(xiàn)了我們會通過一個多任務的模型,,同時去輸出Map靜態(tài)感知,也會輸出3D的動態(tài)目標檢測,,結合這兩個Head我們會再去做動態(tài)目標的軌跡預測,,也是通過這樣一個端到端的范式,進一步的去增強了跟蹤和預測的性能,,同時也減少了我們對于后處理的依賴,。
現(xiàn)在隨著自動駕駛技術的發(fā)展,隨著它落地的增加,,我們逐步的發(fā)現(xiàn)僅僅達成靜態(tài)和動態(tài)感知其實并不足以完成自動駕駛,,很重要的原因就是場景中有很多一般障礙物,一般障礙物我們是很難用語義去窮盡的,,比如說馬路上有一個紙箱子,,要定義紙箱的類別,這個是難以覆蓋的, 因此我們也需要通過一些幾何的方式去理解這個場景的幾何構造,,同時覆蓋一般障礙物的感知,,因此3D Occupancy是一個非常好的解決范式,在之前的Tesla AI Day上大家也看到過Tesla 3D Occupancy算法方案,,它是輸出一個3D的占有,,就是XYZ跟一個feature vector,它對于帶寬和計算量的要求都是非常高的,,因此我們在征程5上也是采用了BEV2D的Freespace+BEV elevation里完成3D Occupancy感知任務,,因此在這個圖中,我們也看到在BEV之后只有兩個Head,,一個是用來估計每一個BEV上面的高度,,另外一個Head是用來估計每個BEV格子是否被占用。這一頁展示了3D Occupancy當前的一個demo視頻,,可以看到它針對這些突出的路沿,、花壇以及道路中間的隔離帶都能有非常好的響應,而像這個花壇,、隔離帶如果我們用語義分割的手段解決的話,,可能是很難窮盡這些場景的。
盡管說BEV是當下最為主流的一個感知的范式,,但我們同時也在不斷的探索稀疏實例目標檢測的技術,,原因也是BEV也存在一定的局限性,主要有幾個方面,,一個我們在做BEV的過程中需要對特征做一些壓縮,,再做稠密的視角轉(zhuǎn)換,這個過程往往會帶來分辨率的損失,,而且稠密的視角轉(zhuǎn)換其實會帶來很大的帶寬的損耗,、帶寬的占用。另外BEV它的感知范圍是局限于BEV的Greatmap的,,如果說我們構建一個非常大的Greatmap,它可能會占據(jù)很大的算力和帶寬,,而構建較小的Greatmap,,又影響遠距離感知,因此我們基于DETR的Transformer的范式去研發(fā)了稀疏實例動態(tài)目標,,它不需要做dense view transformer,,也不需要向傳統(tǒng)的基于Transformer的BEV做很多全局的attention,同時它通過稀疏的范式,當前性能已經(jīng)超過了所有Sparse目標檢測方法和絕大部分BEV的方法,,此外Sparse的范式也很容易可以應用到地圖感知和靜態(tài)和一般障礙物,。
接下來是端云協(xié)同系統(tǒng)中云端的部分,我重點會講跟感知相關的,尤其是4D標注的部分,, 我們在云端構建最重要的系統(tǒng)就是4D智能化的標注,,它主要由四個大的模塊和流程組成,分別是數(shù)據(jù)采集,、4D的場景重建,、大模型的預刷和人工質(zhì)檢和編輯,它能夠把這個感知的輸出空間從2D映射到3D,,所以我們所有的標注也都是在3D之下去完成的,。所謂4D就是結合了時序,4D標注第一步就是完成4D的重建,,4D重建有兩個大的環(huán)節(jié),,第一個部分是單幀的重建,這是基于比較經(jīng)典的SLAM技術,,基于camera和lidar多模態(tài)的重建,。第二個部分是多趟的聚合,單趟很難掃描完整個場景,,因此通過多趟的聚合,,能夠把這個場景達成一個更好的完整的感知,這是上面的通路,,就是針對靜態(tài)和靜態(tài)環(huán)境,。不需要關注動態(tài)目標,底下主要是基于Lidar跟camera同時去檢測和感知場景中的動態(tài)目標,,通過云端大模型得到高精度感知的結果,,這兩個融合之后就得到了4D場景中的完整信息,這動態(tài)和靜態(tài)所具有的完整信息在經(jīng)過模型預刷和標注之后,,就能夠給所有的BEV的任務提供一個監(jiān)督信息,。
除了動態(tài)和靜態(tài),就像我們剛剛講到非常重要的就是Occupancy占用柵格,,主要是為了解決場景中一般的障礙物,,因此我們構建了多模態(tài)的一般障礙物的幀值生成的方案,它能夠把路面非常小的凸起形成一個很好的建模,,去供3D Occupancy模型做一個學習,,之后再供給自動駕駛系統(tǒng)去應用。當然多模態(tài)的技術盡管能夠達到很高的精度,,但它的局限性是需要車上有雷達,,但我們大部分的量產(chǎn)車上是不會安裝雷達的,因此純視覺的點云重建,,純視覺的4D場景重建對我們來說都是非常重要的,,這個決定了未來數(shù)據(jù)能不能更大規(guī)模的上量,,更大規(guī)模的去完成一個標注和對模型的監(jiān)督,當前我們已經(jīng)是能夠通過純視覺的重建達到接近多模態(tài)視覺得效果,,暫時還沒有在量產(chǎn)中去應用.除了純視覺點云,,現(xiàn)在NeRF也是大家廣為關注的算法,相比點云它能夠給場景提供更稠密的重建,,并且可以去實時的恢復這些所有的視角,,并且做視角的轉(zhuǎn)換,同樣是我們當前仍然在研發(fā)還沒有在量產(chǎn)中使用的算法,。當前4D智能標注已經(jīng)支持了非常豐富的任務,,像這里列出BEV的分割、3D的車位,、靜態(tài)全要素,、3D目標檢測等等。
下面我跟大家講講我們對于自動駕駛端到端算法趨勢的看法,,前面一直在講軟件2.0,,實際上軟件2.0驅(qū)動自動駕駛端到端已經(jīng)是一個行業(yè)的共識,前面我給大家展示了我們在動態(tài)目標這一部分已經(jīng)使用了檢測跟蹤到預測的端到端,,但實際上這個還可以進一步往后去發(fā)展,,去結合包括我們環(huán)境的認知,比如道路的拓撲邏輯關系的感知,,以及到基于深度學習的Planner到Control,,其實都是可以被端到端的訓練去落地的。在去年已經(jīng)誕生了非常多特別優(yōu)秀的一些端到端的算法工作,,可以看出大家對這個方面都在做很多的工作,,并且去努力朝這個方向發(fā)展,之前我們看到特斯拉的FSD會在V12版本發(fā)布一個端到端的方案,,地平線研發(fā)了基于Vector表達的一套端到端的自動駕駛算法,,我們稱作VAD,跟大部分的普通端到端算法不同,,VAD是將場景表達為向量,,而不是柵格,這種方式能夠顯著的提升inference的速度,,并且在訓練的階段通過向量的方式來施加顯示的監(jiān)督約束,,當前這套方法已經(jīng)在nuScenes dataset 上取得了端到端到planning的指標。
現(xiàn)在ChatGPT,、GPT4都非常火,,我們認為GPT4對于自動駕駛端到端也有非常大的啟示,,這里展示了inference GPT講的三步instruction GPT訓練范式,,第一步是文本的自監(jiān)督預訓練,第二步是通過人工智能撰寫的問答對去做監(jiān)督學習,,最后一部分是human feedback的強化學習,,基于這樣一個啟示,我們也認為端到端自動駕駛的訓練范式會非常類似于GPT的訓練范式,,首先也需要多模態(tài)自監(jiān)督的預訓練,,這個跟文本不一樣,它需要Lidar,、camera,、包括自監(jiān)督在內(nèi)的文本訓練。之后我們需要這些子模塊的監(jiān)督訓練,,還是需要一部分數(shù)據(jù),,有標注做一些監(jiān)督。第三個imitation learning它是學人怎么做,,最后一部分我們也是通過RL來對齊它跟人的價值觀,,并且去做好一些兜底。
以上是我們對于端到端的一些思考,,最后是我們簡要一些成果的展示,,首先是我們城區(qū)的復雜場景自動駕駛展示,總的來講基于征程5 城區(qū)NOA的方案,,能夠在這些復雜拓撲無保護左轉(zhuǎn),、無保護右轉(zhuǎn)、擁堵的博弈匯出等等復雜場景上達到一個純視覺城區(qū)非常好的性能,,同時我們也在多次自動駕駛學術競賽中取得優(yōu)異的成績,,當前地平線的征程系列芯片已經(jīng)在50款車型上量產(chǎn)上市達到300萬片芯片的出貨,已經(jīng)定點車型是超過120款,,去年我們在L2+標配市場達到了市場份額的第一,。
好評理由:
差評理由: