[汽車之家 技術(shù)講堂] 2023年11月,特斯拉宣布已開始向員工推出完全自動(dòng)駕駛(FSD)V12版本,,該版本會(huì)引入神經(jīng)網(wǎng)絡(luò)系統(tǒng),,使用最新的端到端自動(dòng)駕駛技術(shù),不再依賴于復(fù)雜冗長(zhǎng)的代碼,。2024年,,F(xiàn)SD V12開始全面推送,與此同時(shí),,F(xiàn)SD入華也成為可能,。一時(shí)間,“端到端”成為全世界自動(dòng)駕駛領(lǐng)域最熱門的詞匯,。
端到端到底是什么,?落地端到端意味著車將會(huì)成為“機(jī)器人”嗎?大模型,、多模態(tài),、神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)等對(duì)全自動(dòng)駕駛有多大幫助及影響?中國(guó)公司在AGI領(lǐng)域的實(shí)力究竟如何,?前段時(shí)間我們探訪了商湯總部,,對(duì)話了行業(yè)專家,商湯科技聯(lián)合創(chuàng)始人,、首席科學(xué)家,、絕影智能汽車事業(yè)群總裁王曉剛博士,在采訪中我們也進(jìn)一步了解了商湯絕影在汽車行業(yè)的發(fā)展和規(guī)劃,。
「商湯是AGI領(lǐng)域的佼佼者」
「商湯的業(yè)務(wù)遍布全球」
一,、AGI和傳統(tǒng)的AI有什么區(qū)別?什么是端到端,?
AI代表人工智能,,能夠執(zhí)行特定任務(wù)或解決特定問題,如語音識(shí)別,、圖像處理和自然語言處理等,,能表現(xiàn)出高度專業(yè)化但局限于特定領(lǐng)域,現(xiàn)如今AI技術(shù)已經(jīng)成熟并廣泛應(yīng)用于醫(yī)療、金融,、交通等行業(yè),。
「AI被應(yīng)用于高鐵檢測(cè)」
「AI被應(yīng)用于礦井作業(yè)」
「AI被應(yīng)用于醫(yī)學(xué)檢查」
AGI(通用人工智能)指的是具有人類般通用智能的系統(tǒng),能夠在不同任務(wù)和領(lǐng)域中表現(xiàn)出廣泛的適應(yīng)能力,。開發(fā)特定領(lǐng)域的人工智能系統(tǒng)相對(duì)簡(jiǎn)單,,通過大量數(shù)據(jù)和特定算法訓(xùn)練模型即可,而AGI需要模擬人類的廣泛認(rèn)知能力和自我學(xué)習(xí)能力,,實(shí)現(xiàn)難度極高,。
「AGI對(duì)技術(shù)的要求更高」
「商湯的人工智能大裝置」
想要更好地理解端到端,需要和傳統(tǒng)的自動(dòng)駕駛控制邏輯進(jìn)行比較:傳統(tǒng)的自動(dòng)駕駛系統(tǒng)采用模塊化部署策略,,其中每個(gè)功能,,如感知、預(yù)測(cè)和規(guī)劃,,都是單獨(dú)開發(fā)并集成到系統(tǒng)中的,,執(zhí)行時(shí)需要一個(gè)環(huán)節(jié)接一個(gè)環(huán)節(jié)遞進(jìn),。端到端自動(dòng)駕駛則能像人一樣,,“看”到外界場(chǎng)景后直接就能做出判斷,從信息輸入到?jīng)Q策執(zhí)行一氣呵成,,沒有中間環(huán)節(jié),。
直接感知強(qiáng)調(diào)系統(tǒng)直接從原始數(shù)據(jù)中獲取環(huán)境信息,不經(jīng)過太多的中間處理和轉(zhuǎn)換環(huán)節(jié),,這是端到端中的一個(gè)關(guān)鍵起始點(diǎn),。直接決策則是基于感知結(jié)果直接生成駕駛策略和行動(dòng)指令,減少了中間復(fù)雜的推理和轉(zhuǎn)換過程,,也是端到端的重要體現(xiàn),。
端到端能夠?qū)崿F(xiàn)整個(gè)自動(dòng)駕駛流程的連貫性和整體性,除了感知和決策,,還包括將決策轉(zhuǎn)化為實(shí)際車輛控制動(dòng)作以及整個(gè)過程中的無縫銜接和高效協(xié)同,。所以,直接感知和直接決策是端到端的核心特征之一,,但也不能簡(jiǎn)單地將它們與端到端完全等同,,端到端是一個(gè)更全面、涵蓋整個(gè)自動(dòng)駕駛體系從輸入到輸出的概念,。
「端到端是AGI技術(shù)發(fā)展的關(guān)鍵進(jìn)程」
當(dāng)然,,端到端不僅可以應(yīng)用在智駕領(lǐng)域,這種大模型更像是人的思考方式,,省去了中間繁瑣的步驟,,減少了數(shù)據(jù)的損失,從信息輸入到策略輸出,都使用同一套算法模型,,往往是包含大量數(shù)據(jù)及信息的大模型,。端到端的應(yīng)用,是AGI技術(shù)發(fā)展的關(guān)鍵進(jìn)程,。
二,、發(fā)展AGI技術(shù)的核心是原創(chuàng)性
AGI技術(shù)是近幾年全世界各行業(yè)的發(fā)展重點(diǎn),身為AGI領(lǐng)域的頂級(jí)專家,,王曉剛也和我們分享了一些觀點(diǎn),。
談及AGI,就不能不提現(xiàn)今最火的Chat GPT,,新的GPT-4o,,將大語言模型和多模態(tài)相結(jié)合,引領(lǐng)了整個(gè)行業(yè)的發(fā)展,。但在成功的背后,,也是多家頂尖科技公司的共同進(jìn)步,微軟為Open AI提供了大型軟硬件基礎(chǔ)設(shè)施,,而相關(guān)的基礎(chǔ)算法和Transformer神經(jīng)網(wǎng)絡(luò)模型,,谷歌已經(jīng)研究多年。
「商湯如影數(shù)字人視頻生成平臺(tái)」
國(guó)內(nèi)雖然也有層出不窮的大語言模型及相關(guān)應(yīng)用,,但大部分的原創(chuàng)度并不高,,很可能會(huì)陷入“價(jià)格越卷越低,但核心技術(shù)進(jìn)步緩慢”的尷尬境地,。
因此,,大模型的發(fā)展不應(yīng)急于商業(yè)化,而應(yīng)著重提升其自身能力,。未來的關(guān)鍵在于多模態(tài)數(shù)據(jù)的聯(lián)合訓(xùn)練,,這需要物理學(xué)、心理學(xué),、認(rèn)知科學(xué),、數(shù)據(jù)科學(xué)和數(shù)學(xué)等多個(gè)領(lǐng)域的合作,多樣化的數(shù)據(jù)有助于平衡偏見,,減少錯(cuò)覺,,使大模型更穩(wěn)定可靠。
「語言大模型是近兩年的熱門」
目前,,Open AI已經(jīng)在視頻,、圖片、語音和文本等多模態(tài)數(shù)據(jù)的融合訓(xùn)練上取得一定進(jìn)展,,雖然低延遲和仿生交互只是表象,,但其背后蘊(yùn)藏著AGI的雛形,。AGI的實(shí)現(xiàn)路徑依賴于訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性,多模態(tài)數(shù)據(jù)在高維空間中的對(duì)齊和融合是當(dāng)前最大的技術(shù)難點(diǎn),。AGI的發(fā)展不僅需要技術(shù),,還需要信念和熱愛,中國(guó)的AGI需要自己的奧本海默,,企業(yè)應(yīng)專注于提升核心競(jìng)爭(zhēng)力和技術(shù)的原創(chuàng)性,,而非陷入價(jià)格戰(zhàn),以推動(dòng)中國(guó)AGI的長(zhǎng)遠(yuǎn)發(fā)展,。
「商湯一直堅(jiān)持技術(shù)原創(chuàng)」
商湯一步步走來,,一直堅(jiān)持技術(shù)原創(chuàng),這也是為什么在那么多人工智能相關(guān)的公司中,,商湯能夠傲視群雄,。早在2014年,商湯團(tuán)隊(duì)就發(fā)布了DeepID系列人臉識(shí)別算法,,首次超過人眼識(shí)別率,,甚至超過了Facebook同期發(fā)布的DeepFace算法,實(shí)現(xiàn)了從0到1的突破,。
「商湯團(tuán)隊(duì)在國(guó)內(nèi)一眾人工智能公司中傲視群雄」
2018年,,商湯開始大模型相關(guān)的研究,當(dāng)時(shí)并沒有能提供足夠算力的基礎(chǔ)設(shè)施,,甚至連國(guó)內(nèi)頂級(jí)的互聯(lián)網(wǎng)公司阿里和騰訊都沒有,,商湯開始在上海臨港進(jìn)行基礎(chǔ)建設(shè),,AIDC人工智能計(jì)算中心,,提前為之后的AI云計(jì)算、云服務(wù)布局,。有了自己的大型基礎(chǔ)設(shè)施,,商湯在行業(yè)內(nèi)的發(fā)展能夠更加游刃有余。
「AIDC人工智能計(jì)算中心位于上海臨港」
2023年,,端到端技術(shù)伴隨著特斯拉發(fā)布FSD V12成為行業(yè)關(guān)鍵詞,,但早在2022年,商湯就發(fā)布了端到端技術(shù),,并表示端到端是未來,。近日伴隨著GPT-4o爆火的多模態(tài),對(duì)于商湯而言并非什么新技術(shù),,已經(jīng)研究多年并投入應(yīng)用,。不久前,商湯的SenseChat V5以總分80.03分的成績(jī)刷新SuperCLUE國(guó)內(nèi)最好成績(jī),,并且在中文綜合成績(jī)上超過GPT-4-Turbo-0125,,這是國(guó)內(nèi)大模型首次在SuperCLUE中文基準(zhǔn)測(cè)試中超越GPT-4 Turbo實(shí)現(xiàn)登頂。
「商湯的SenseChat V5刷新了SuperCLUE國(guó)內(nèi)最好成績(jī)」
商湯一直堅(jiān)持AGI相關(guān)技術(shù)的原創(chuàng),走到世界前列,。王曉剛認(rèn)為,,同質(zhì)化的競(jìng)爭(zhēng)會(huì)導(dǎo)致資源浪費(fèi),原創(chuàng)性是推動(dòng)全球人工智能行業(yè)向前發(fā)展的源動(dòng)力,。當(dāng)然,,原創(chuàng)也意味著更多的不確定性和更大的風(fēng)險(xiǎn),但如果成功,,對(duì)于整個(gè)行業(yè)而言,,突破是巨大的,這也是商湯想要實(shí)現(xiàn)的,。
三,、AGI技術(shù)如何改變汽車行業(yè)
雖然汽車行業(yè)更像是傳統(tǒng)制造業(yè),和人工智能行業(yè)有所區(qū)別,,但如今越來越多的前沿技術(shù)開始改變汽車行業(yè),,王曉剛認(rèn)為,汽車行業(yè)同樣需要原創(chuàng)精神,。特斯拉發(fā)布了端到端自動(dòng)駕駛,,成為了整個(gè)行業(yè)的追逐目標(biāo),這一定是未來趨勢(shì),,但其實(shí)也產(chǎn)生了另一種形式的同質(zhì)化,。
「絕影智能駕駛具有前瞻性」
汽車的智能化,其實(shí)有更多值得原創(chuàng)的方面,,人工智能遠(yuǎn)不止端到端,,GPT-4o多模態(tài)人機(jī)交互,在汽車環(huán)境中也能展示相關(guān)的技術(shù)場(chǎng)景,。在座艙內(nèi),,多模態(tài)交互會(huì)更加自然,應(yīng)用人工智能,,能進(jìn)一步拓展人的能力,,是智能汽車的發(fā)展方向之一。
「智能化是汽車行業(yè)的未來方向」
當(dāng)然,,無論是端到端自動(dòng)駕駛,,還是多模態(tài)人機(jī)互動(dòng),都需要控制維度,、控制能力的提升,,技術(shù)的融合,包括語音,、文字,、圖像在內(nèi),,來自不同信息源的數(shù)據(jù)深度處理,都會(huì)導(dǎo)致技術(shù)難度的大幅度增加,。這也需要相關(guān)供應(yīng)商能夠和車企有深度合作,,獲取相關(guān)的數(shù)據(jù),和車廠深度融合,,共同推進(jìn)產(chǎn)品的定義,、用戶體驗(yàn)的提升。
「將智艙和醫(yī)療相結(jié)合是一種新思路」
「智艙可以和更多應(yīng)用相結(jié)合」
王曉剛認(rèn)為,,作為商湯的汽車事業(yè)獨(dú)立品牌,,商湯絕影在汽車的未來智能化發(fā)展中有著很強(qiáng)的潛力和競(jìng)爭(zhēng)力。在AGI技術(shù)方面的原創(chuàng)性和AIDC人工智能計(jì)算中心,,已經(jīng)展現(xiàn)了商湯的綜合實(shí)力,。在此基礎(chǔ)上,商湯絕影專注于智能汽車行業(yè),,把AGI相關(guān)技術(shù)和汽車行業(yè)相結(jié)合,。
「專注于智能汽車業(yè)務(wù)的商湯絕影」
雖然一些老牌供應(yīng)商已經(jīng)在汽車領(lǐng)域深耕多年,但往往只聚焦于單一技術(shù)模塊,,不具備商湯的AGI能力,。以多模態(tài)人機(jī)交互為例,每增加一種模態(tài),,就需要綜合能力,、研究能力及落地能力的大幅度提升,無論是圖像,、語音,、文字還是3D信息,商湯都有著成熟的經(jīng)驗(yàn),。
「商湯絕影在多模態(tài)人機(jī)交互領(lǐng)域有著成熟的經(jīng)驗(yàn)」
Open AI雖然相關(guān)能力更強(qiáng),,但沒有專注于汽車方向的團(tuán)隊(duì),,平臺(tái)性的公司,,在汽車領(lǐng)域的專注度往往不夠。另外,,手機(jī)和電腦應(yīng)用,,并不是真正的多模態(tài),獲取的信息很有限,。相較而言,,智能汽車是非常自然的多模態(tài)交互場(chǎng)景,汽車產(chǎn)量大,,終端用戶多,,信息的形式多且數(shù)據(jù)量大,,商湯絕影的團(tuán)隊(duì)正在這一領(lǐng)域深耕,用人工智能改變汽車行業(yè),,在汽車行業(yè)開發(fā)更先進(jìn)的人工智能,。
「商湯絕影在智能汽車領(lǐng)域具有多個(gè)優(yōu)勢(shì)」
四、選擇純視覺方案并不是因?yàn)槌杀?nbsp;
除了多模態(tài)人機(jī)交互,,自動(dòng)駕駛是智能汽車的另一個(gè)主要發(fā)展方向,,為何未來屬于視覺方案而不是激光雷達(dá),王曉剛給出了具有行業(yè)高度的解釋,。
雖然,,更多人關(guān)注到的是成本方面的降低,但這并不是影響特斯拉,、商湯絕影等公司的決策的主要原因,,信息量的差異以及對(duì)AGI技術(shù)的未來展望,讓這些公司堅(jiān)定不移地選擇了純視覺方案,。
「視覺方案在未來有著更多可能性」
激光雷達(dá)在自動(dòng)駕駛技術(shù)剛起步時(shí)更容易利用,,但相較于人眼觀察到的世界,會(huì)有很多信息損失,。攝像頭就像是人的雙眼,,采集到的信息更加豐富,天花板更高,,伴隨著AGI能力的逐步提升,,端到端大模型的應(yīng)用,從信息采集到做出決策都更像是一個(gè)真正的人類,,視覺優(yōu)勢(shì)會(huì)更加明顯,。
五、面對(duì)端到端的全自動(dòng)駕駛能力,,商湯絕影與特斯拉的差距并不大
那么在智能化汽車方面,,商湯絕影相較于行業(yè)頭部的特斯拉,又有哪些優(yōu)勢(shì)和不足呢,?
在人機(jī)交互方面,,王曉剛對(duì)商湯絕影的信心十足。雖然特斯拉的機(jī)器人應(yīng)用已初見雛形,,但在車的場(chǎng)景中還未發(fā)力,,閉環(huán)自研很難覆蓋全部維度。在這方面,,商湯絕影已經(jīng)積累了大量的經(jīng)驗(yàn),,和多家車企有著深度的合作。
「商湯絕影在人機(jī)交互方面已經(jīng)積累了大量經(jīng)驗(yàn)」
在自動(dòng)駕駛方面,,特斯拉和商湯絕影使用的都是基于端到端大模型的純視覺方案,,這類方案需要大量的數(shù)據(jù)和充足的算力,,特斯拉和商湯都有著龐大的基礎(chǔ)設(shè)施,近幾年,,特斯拉大規(guī)模購(gòu)入高算力GPU,,算力中心由10萬塊GPU組成,截止目前,,商湯有4萬5千塊GPU,,總算力已高達(dá)1.2萬PFLOPS,是其他車企或汽車行業(yè)供應(yīng)商難以匹敵的高度,。
「商湯的AIDC人工智能計(jì)算中心能夠提供充足的算力」
PFLOPS是"Peta Floating Point Operations Per Second"的縮寫,,表示每秒千萬億次浮點(diǎn)運(yùn)算,如果用業(yè)內(nèi)常用的TOPS表示,,1 PFLOPS等同于1000 TOPS,,1.2萬PFLOPS也就等同于1200萬TOPS,大約相當(dāng)于240萬臺(tái)家用計(jì)算機(jī)的算力,。
「人工智能的發(fā)展需要有充足的算力作為基礎(chǔ)」
除了在算力方面的不斷積累,,在數(shù)據(jù)的獲取和模型的訓(xùn)練上,商湯絕影也使用了和特斯拉相同的思路,。特斯拉會(huì)使用采集到的真實(shí)場(chǎng)景數(shù)據(jù)構(gòu)建虛擬世界,,在虛擬世界中可以高頻訓(xùn)練各類情況,增強(qiáng)對(duì)物體的感知判斷,,最終能夠給出更高效的決策,。2023年,商湯也開始合成視頻對(duì)模型進(jìn)行訓(xùn)練,,不再需要消耗大量算力和人力從海量數(shù)據(jù)中提取有效數(shù)據(jù),。
「訓(xùn)練模型需要大量的有效數(shù)據(jù)」
當(dāng)然,身為車企的特斯拉,,已經(jīng)售出超過600萬輛車,,有著海量的真實(shí)數(shù)據(jù),能夠閉環(huán)完成全過程,,更加高效,。商湯絕影主要依賴于車企合作,和特斯拉相比,,效率和信息量有一定差距,,分享多少信息給供應(yīng)商,車企會(huì)有選擇,。但是,伴隨著合作的擴(kuò)展和加深,,效率會(huì)進(jìn)一步提升,,車企也會(huì)開放更多的信息,。
六、商湯絕影的未來發(fā)展
未來如何和車企進(jìn)行合作,,體現(xiàn)商湯絕影的價(jià)值,,也是我們所關(guān)心的。
王曉剛表示,,雖然商湯絕影已經(jīng)有量產(chǎn)的經(jīng)驗(yàn),,但還是需要更多的宣傳和曝光——讓車企知道商湯絕影是一家怎樣的公司,商湯絕影的技術(shù)有什么價(jià)值,。無論是特斯拉FSD入華,,還是Chat GPT的演進(jìn),對(duì)整個(gè)行業(yè)來說都是正向的,,和商湯絕影一起推動(dòng)了市場(chǎng)對(duì)端到端,、多模態(tài)等前沿人工智能技術(shù)的理解和認(rèn)知。
「商湯絕影已經(jīng)有智駕的量產(chǎn)經(jīng)驗(yàn)」
和車企的合作方式,,商湯絕影也在不斷探索中,,但始終會(huì)秉承著開放的態(tài)度。商湯絕影會(huì)一直專注在自己擅長(zhǎng)的AGI領(lǐng)域,,車企也能做自己擅長(zhǎng)的,,雙方的合作開放且深度。從基礎(chǔ)的模型和引擎,,到模塊,、應(yīng)用乃至完整的方案,商湯絕影都能夠提供,,同時(shí)也能協(xié)助車企提升平臺(tái)化能力和效率,。商湯絕影看重的是長(zhǎng)期且優(yōu)質(zhì)的合作,在合作過程中,,也能不斷加強(qiáng)自身的核心發(fā)展項(xiàng),。
「商湯有著豐富的技術(shù)儲(chǔ)備」
商湯絕影在國(guó)內(nèi)算得上是一家稀缺的全棧技術(shù)領(lǐng)先供應(yīng)商,他們擁有"算力+算法+量產(chǎn)經(jīng)驗(yàn)"這三重全面能力,。他們不只滿足于賦能客戶,,更主張成為核心技術(shù)伙伴。依托商湯大裝置深厚的算力儲(chǔ)備,、原生汽車垂類大模型,、領(lǐng)先的軟硬件架構(gòu)以及全棧數(shù)據(jù)生產(chǎn)管線等實(shí)力,商湯絕影展現(xiàn)出強(qiáng)大的全棧綜合能力,,有可能推動(dòng)智能汽車更快速地駛?cè)階GI時(shí)代,。值得一提的是,他們的目標(biāo)非常明確——希望與汽車廠商建立起戰(zhàn)略合作關(guān)系,,而這恰好也是商湯絕影和王曉剛所期待的,。
「商湯絕影期望與汽車廠商建立起戰(zhàn)略合作關(guān)系」
商湯科技取“絕影”之名,,這匹讓人驚嘆、一騎絕塵,、迅疾如影的千里馬,,源自曹操的坐騎“絕影”。在《魏書》中記載其因流矢受傷,,但依舊忠誠(chéng)可靠,,我想這也能象征商湯絕影強(qiáng)大的技術(shù)實(shí)力和可靠的原創(chuàng)品質(zhì)。相信其能助力更多車企,,實(shí)現(xiàn)全自動(dòng)駕駛能力落地,。截至2023年12月,商湯絕影已與本田,、比亞迪,、長(zhǎng)城、廣汽,、紅旗,、極氪、哪吒,、奇瑞,、蔚來等超過30家國(guó)內(nèi)外車企攜手合作,覆蓋超90款車型,,累計(jì)交付195萬輛智能汽車,。而最新的端到端大模型,也計(jì)劃于2025年落地,。(訪談/李店斌 黃正橋 龐珅 文/龐珅 圖/黃正橋)
在今年的北京車展上,,商湯絕影展示了真端到端自動(dòng)駕駛解決方案UniAD的視頻,所有操作行云流水,,仿佛真的有了人的智慧,。但需要說明的是,視頻中的只是測(cè)試車,,大洋彼岸的特斯拉,,在FSD V12版本已經(jīng)使用了端到端架構(gòu),且已全面推送給車主,。FSD入華的消息沸沸揚(yáng)揚(yáng),,很多人翹首期盼,但在中國(guó)的道路上,,同樣是端到端,,同樣是虛擬世界訓(xùn)練出的大模型,中國(guó)自己的AGI領(lǐng)頭羊、擁有原創(chuàng)技術(shù)團(tuán)隊(duì)的商湯絕影更值得我們期待,。
相關(guān)視頻——
好評(píng)理由:
差評(píng)理由: