[汽車之家 技術(shù)講堂] 2023年11月,,特斯拉宣布已開始向員工推出完全自動駕駛(FSD)V12版本,,該版本會引入神經(jīng)網(wǎng)絡(luò)系統(tǒng),使用最新的端到端自動駕駛技術(shù),,不再依賴于復(fù)雜冗長的代碼,。2024年,F(xiàn)SD V12開始全面推送,,與此同時,,F(xiàn)SD入華也成為可能。一時間,,“端到端”成為全世界自動駕駛領(lǐng)域最熱門的詞匯,。
端到端到底是什么?落地端到端意味著車將會成為“機器人”嗎,?大模型,、多模態(tài)、神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)等對全自動駕駛有多大幫助及影響,?中國公司在AGI領(lǐng)域的實力究竟如何,?前段時間我們探訪了商湯總部,對話了行業(yè)專家,,商湯科技聯(lián)合創(chuàng)始人,、首席科學(xué)家、絕影智能汽車事業(yè)群總裁王曉剛博士,,在采訪中我們也進一步了解了商湯絕影在汽車行業(yè)的發(fā)展和規(guī)劃,。
「商湯是AGI領(lǐng)域的佼佼者」
「商湯的業(yè)務(wù)遍布全球」
一、AGI和傳統(tǒng)的AI有什么區(qū)別,?什么是端到端,?
AI代表人工智能,能夠執(zhí)行特定任務(wù)或解決特定問題,,如語音識別、圖像處理和自然語言處理等,,能表現(xiàn)出高度專業(yè)化但局限于特定領(lǐng)域,,現(xiàn)如今AI技術(shù)已經(jīng)成熟并廣泛應(yīng)用于醫(yī)療、金融、交通等行業(yè),。
「AI被應(yīng)用于高鐵檢測」
「AI被應(yīng)用于礦井作業(yè)」
「AI被應(yīng)用于醫(yī)學(xué)檢查」
AGI(通用人工智能)指的是具有人類般通用智能的系統(tǒng),,能夠在不同任務(wù)和領(lǐng)域中表現(xiàn)出廣泛的適應(yīng)能力。開發(fā)特定領(lǐng)域的人工智能系統(tǒng)相對簡單,,通過大量數(shù)據(jù)和特定算法訓(xùn)練模型即可,,而AGI需要模擬人類的廣泛認知能力和自我學(xué)習(xí)能力,實現(xiàn)難度極高,。
「AGI對技術(shù)的要求更高」
「商湯的人工智能大裝置」
想要更好地理解端到端,,需要和傳統(tǒng)的自動駕駛控制邏輯進行比較:傳統(tǒng)的自動駕駛系統(tǒng)采用模塊化部署策略,其中每個功能,,如感知,、預(yù)測和規(guī)劃,都是單獨開發(fā)并集成到系統(tǒng)中的,,執(zhí)行時需要一個環(huán)節(jié)接一個環(huán)節(jié)遞進,。端到端自動駕駛則能像人一樣,“看”到外界場景后直接就能做出判斷,,從信息輸入到?jīng)Q策執(zhí)行一氣呵成,,沒有中間環(huán)節(jié)。
直接感知強調(diào)系統(tǒng)直接從原始數(shù)據(jù)中獲取環(huán)境信息,,不經(jīng)過太多的中間處理和轉(zhuǎn)換環(huán)節(jié),,這是端到端中的一個關(guān)鍵起始點。直接決策則是基于感知結(jié)果直接生成駕駛策略和行動指令,,減少了中間復(fù)雜的推理和轉(zhuǎn)換過程,,也是端到端的重要體現(xiàn)。
端到端能夠?qū)崿F(xiàn)整個自動駕駛流程的連貫性和整體性,,除了感知和決策,,還包括將決策轉(zhuǎn)化為實際車輛控制動作以及整個過程中的無縫銜接和高效協(xié)同。所以,,直接感知和直接決策是端到端的核心特征之一,,但也不能簡單地將它們與端到端完全等同,端到端是一個更全面,、涵蓋整個自動駕駛體系從輸入到輸出的概念,。
「端到端是AGI技術(shù)發(fā)展的關(guān)鍵進程」
當(dāng)然,端到端不僅可以應(yīng)用在智駕領(lǐng)域,,這種大模型更像是人的思考方式,,省去了中間繁瑣的步驟,減少了數(shù)據(jù)的損失,,從信息輸入到策略輸出,,都使用同一套算法模型,,往往是包含大量數(shù)據(jù)及信息的大模型。端到端的應(yīng)用,,是AGI技術(shù)發(fā)展的關(guān)鍵進程,。
二、發(fā)展AGI技術(shù)的核心是原創(chuàng)性
AGI技術(shù)是近幾年全世界各行業(yè)的發(fā)展重點,,身為AGI領(lǐng)域的頂級專家,,王曉剛也和我們分享了一些觀點。
談及AGI,,就不能不提現(xiàn)今最火的Chat GPT,,新的GPT-4o,將大語言模型和多模態(tài)相結(jié)合,,引領(lǐng)了整個行業(yè)的發(fā)展,。但在成功的背后,也是多家頂尖科技公司的共同進步,,微軟為Open AI提供了大型軟硬件基礎(chǔ)設(shè)施,,而相關(guān)的基礎(chǔ)算法和Transformer神經(jīng)網(wǎng)絡(luò)模型,谷歌已經(jīng)研究多年,。
「商湯如影數(shù)字人視頻生成平臺」
國內(nèi)雖然也有層出不窮的大語言模型及相關(guān)應(yīng)用,,但大部分的原創(chuàng)度并不高,很可能會陷入“價格越卷越低,,但核心技術(shù)進步緩慢”的尷尬境地,。
因此,大模型的發(fā)展不應(yīng)急于商業(yè)化,,而應(yīng)著重提升其自身能力,。未來的關(guān)鍵在于多模態(tài)數(shù)據(jù)的聯(lián)合訓(xùn)練,這需要物理學(xué),、心理學(xué),、認知科學(xué)、數(shù)據(jù)科學(xué)和數(shù)學(xué)等多個領(lǐng)域的合作,,多樣化的數(shù)據(jù)有助于平衡偏見,,減少錯覺,使大模型更穩(wěn)定可靠,。
「語言大模型是近兩年的熱門」
目前,,Open AI已經(jīng)在視頻、圖片,、語音和文本等多模態(tài)數(shù)據(jù)的融合訓(xùn)練上取得一定進展,,雖然低延遲和仿生交互只是表象,但其背后蘊藏著AGI的雛形,。AGI的實現(xiàn)路徑依賴于訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性,,多模態(tài)數(shù)據(jù)在高維空間中的對齊和融合是當(dāng)前最大的技術(shù)難點,。AGI的發(fā)展不僅需要技術(shù),還需要信念和熱愛,,中國的AGI需要自己的奧本海默,企業(yè)應(yīng)專注于提升核心競爭力和技術(shù)的原創(chuàng)性,,而非陷入價格戰(zhàn),,以推動中國AGI的長遠發(fā)展。
「商湯一直堅持技術(shù)原創(chuàng)」
商湯一步步走來,,一直堅持技術(shù)原創(chuàng),,這也是為什么在那么多人工智能相關(guān)的公司中,商湯能夠傲視群雄,。早在2014年,,商湯團隊就發(fā)布了DeepID系列人臉識別算法,首次超過人眼識別率,,甚至超過了Facebook同期發(fā)布的DeepFace算法,,實現(xiàn)了從0到1的突破。
「商湯團隊在國內(nèi)一眾人工智能公司中傲視群雄」
2018年,,商湯開始大模型相關(guān)的研究,,當(dāng)時并沒有能提供足夠算力的基礎(chǔ)設(shè)施,甚至連國內(nèi)頂級的互聯(lián)網(wǎng)公司阿里和騰訊都沒有,,商湯開始在上海臨港進行基礎(chǔ)建設(shè),,AIDC人工智能計算中心,提前為之后的AI云計算,、云服務(wù)布局,。有了自己的大型基礎(chǔ)設(shè)施,商湯在行業(yè)內(nèi)的發(fā)展能夠更加游刃有余,。
「AIDC人工智能計算中心位于上海臨港」
2023年,,端到端技術(shù)伴隨著特斯拉發(fā)布FSD V12成為行業(yè)關(guān)鍵詞,但早在2022年,,商湯就發(fā)布了端到端技術(shù),,并表示端到端是未來。近日伴隨著GPT-4o爆火的多模態(tài),,對于商湯而言并非什么新技術(shù),,已經(jīng)研究多年并投入應(yīng)用。不久前,,商湯的SenseChat V5以總分80.03分的成績刷新SuperCLUE國內(nèi)最好成績,,并且在中文綜合成績上超過GPT-4-Turbo-0125,這是國內(nèi)大模型首次在SuperCLUE中文基準測試中超越GPT-4 Turbo實現(xiàn)登頂,。
「商湯的SenseChat V5刷新了SuperCLUE國內(nèi)最好成績」
商湯一直堅持AGI相關(guān)技術(shù)的原創(chuàng),,走到世界前列,。王曉剛認為,同質(zhì)化的競爭會導(dǎo)致資源浪費,,原創(chuàng)性是推動全球人工智能行業(yè)向前發(fā)展的源動力,。當(dāng)然,原創(chuàng)也意味著更多的不確定性和更大的風(fēng)險,,但如果成功,,對于整個行業(yè)而言,突破是巨大的,,這也是商湯想要實現(xiàn)的,。
好評理由:
差評理由: