[汽車之家 技術(shù)講堂] 2023年11月,,特斯拉宣布已開始向員工推出完全自動駕駛(FSD)V12版本,該版本會引入神經(jīng)網(wǎng)絡系統(tǒng),,使用最新的端到端自動駕駛技術(shù),,不再依賴于復雜冗長的代碼。2024年,,F(xiàn)SD V12開始全面推送,,與此同時,,F(xiàn)SD入華也成為可能。一時間,,“端到端”成為全世界自動駕駛領域最熱門的詞匯,。
端到端到底是什么?落地端到端意味著車將會成為“機器人”嗎,?大模型,、多模態(tài)、神經(jīng)網(wǎng)絡學習等對全自動駕駛有多大幫助及影響,?中國公司在AGI領域的實力究竟如何,?前段時間我們探訪了商湯總部,對話了行業(yè)專家,,商湯科技聯(lián)合創(chuàng)始人,、首席科學家、絕影智能汽車事業(yè)群總裁王曉剛博士,,在采訪中我們也進一步了解了商湯絕影在汽車行業(yè)的發(fā)展和規(guī)劃,。
「商湯是AGI領域的佼佼者」
「商湯的業(yè)務遍布全球」
一、AGI和傳統(tǒng)的AI有什么區(qū)別,?什么是端到端,?
AI代表人工智能,能夠執(zhí)行特定任務或解決特定問題,,如語音識別,、圖像處理和自然語言處理等,能表現(xiàn)出高度專業(yè)化但局限于特定領域,,現(xiàn)如今AI技術(shù)已經(jīng)成熟并廣泛應用于醫(yī)療,、金融、交通等行業(yè),。
「AI被應用于高鐵檢測」
「AI被應用于礦井作業(yè)」
「AI被應用于醫(yī)學檢查」
AGI(通用人工智能)指的是具有人類般通用智能的系統(tǒng),,能夠在不同任務和領域中表現(xiàn)出廣泛的適應能力。開發(fā)特定領域的人工智能系統(tǒng)相對簡單,,通過大量數(shù)據(jù)和特定算法訓練模型即可,,而AGI需要模擬人類的廣泛認知能力和自我學習能力,實現(xiàn)難度極高,。
「AGI對技術(shù)的要求更高」
「商湯的人工智能大裝置」
想要更好地理解端到端,,需要和傳統(tǒng)的自動駕駛控制邏輯進行比較:傳統(tǒng)的自動駕駛系統(tǒng)采用模塊化部署策略,其中每個功能,,如感知,、預測和規(guī)劃,都是單獨開發(fā)并集成到系統(tǒng)中的,執(zhí)行時需要一個環(huán)節(jié)接一個環(huán)節(jié)遞進,。端到端自動駕駛則能像人一樣,,“看”到外界場景后直接就能做出判斷,從信息輸入到?jīng)Q策執(zhí)行一氣呵成,,沒有中間環(huán)節(jié),。
直接感知強調(diào)系統(tǒng)直接從原始數(shù)據(jù)中獲取環(huán)境信息,不經(jīng)過太多的中間處理和轉(zhuǎn)換環(huán)節(jié),,這是端到端中的一個關(guān)鍵起始點。直接決策則是基于感知結(jié)果直接生成駕駛策略和行動指令,,減少了中間復雜的推理和轉(zhuǎn)換過程,,也是端到端的重要體現(xiàn)。
端到端能夠?qū)崿F(xiàn)整個自動駕駛流程的連貫性和整體性,,除了感知和決策,,還包括將決策轉(zhuǎn)化為實際車輛控制動作以及整個過程中的無縫銜接和高效協(xié)同。所以,,直接感知和直接決策是端到端的核心特征之一,,但也不能簡單地將它們與端到端完全等同,端到端是一個更全面,、涵蓋整個自動駕駛體系從輸入到輸出的概念,。
「端到端是AGI技術(shù)發(fā)展的關(guān)鍵進程」
當然,端到端不僅可以應用在智駕領域,,這種大模型更像是人的思考方式,,省去了中間繁瑣的步驟,減少了數(shù)據(jù)的損失,,從信息輸入到策略輸出,,都使用同一套算法模型,往往是包含大量數(shù)據(jù)及信息的大模型,。端到端的應用,,是AGI技術(shù)發(fā)展的關(guān)鍵進程。
二,、發(fā)展AGI技術(shù)的核心是原創(chuàng)性
AGI技術(shù)是近幾年全世界各行業(yè)的發(fā)展重點,,身為AGI領域的頂級專家,王曉剛也和我們分享了一些觀點,。
談及AGI,,就不能不提現(xiàn)今最火的Chat GPT,新的GPT-4o,,將大語言模型和多模態(tài)相結(jié)合,,引領了整個行業(yè)的發(fā)展。但在成功的背后,也是多家頂尖科技公司的共同進步,,微軟為Open AI提供了大型軟硬件基礎設施,,而相關(guān)的基礎算法和Transformer神經(jīng)網(wǎng)絡模型,谷歌已經(jīng)研究多年,。
「商湯如影數(shù)字人視頻生成平臺」
國內(nèi)雖然也有層出不窮的大語言模型及相關(guān)應用,,但大部分的原創(chuàng)度并不高,很可能會陷入“價格越卷越低,,但核心技術(shù)進步緩慢”的尷尬境地,。
因此,大模型的發(fā)展不應急于商業(yè)化,,而應著重提升其自身能力,。未來的關(guān)鍵在于多模態(tài)數(shù)據(jù)的聯(lián)合訓練,這需要物理學,、心理學,、認知科學、數(shù)據(jù)科學和數(shù)學等多個領域的合作,,多樣化的數(shù)據(jù)有助于平衡偏見,,減少錯覺,使大模型更穩(wěn)定可靠,。
「語言大模型是近兩年的熱門」
目前,,Open AI已經(jīng)在視頻、圖片,、語音和文本等多模態(tài)數(shù)據(jù)的融合訓練上取得一定進展,,雖然低延遲和仿生交互只是表象,但其背后蘊藏著AGI的雛形,。AGI的實現(xiàn)路徑依賴于訓練數(shù)據(jù)的質(zhì)量和多樣性,,多模態(tài)數(shù)據(jù)在高維空間中的對齊和融合是當前最大的技術(shù)難點。AGI的發(fā)展不僅需要技術(shù),,還需要信念和熱愛,,中國的AGI需要自己的奧本海默,企業(yè)應專注于提升核心競爭力和技術(shù)的原創(chuàng)性,,而非陷入價格戰(zhàn),,以推動中國AGI的長遠發(fā)展。
「商湯一直堅持技術(shù)原創(chuàng)」
商湯一步步走來,,一直堅持技術(shù)原創(chuàng),,這也是為什么在那么多人工智能相關(guān)的公司中,商湯能夠傲視群雄,。早在2014年,,商湯團隊就發(fā)布了DeepID系列人臉識別算法,首次超過人眼識別率,甚至超過了Facebook同期發(fā)布的DeepFace算法,,實現(xiàn)了從0到1的突破,。
「商湯團隊在國內(nèi)一眾人工智能公司中傲視群雄」
2018年,商湯開始大模型相關(guān)的研究,,當時并沒有能提供足夠算力的基礎設施,,甚至連國內(nèi)頂級的互聯(lián)網(wǎng)公司阿里和騰訊都沒有,商湯開始在上海臨港進行基礎建設,,AIDC人工智能計算中心,,提前為之后的AI云計算、云服務布局,。有了自己的大型基礎設施,,商湯在行業(yè)內(nèi)的發(fā)展能夠更加游刃有余。
「AIDC人工智能計算中心位于上海臨港」
2023年,,端到端技術(shù)伴隨著特斯拉發(fā)布FSD V12成為行業(yè)關(guān)鍵詞,但早在2022年,,商湯就發(fā)布了端到端技術(shù),,并表示端到端是未來。近日伴隨著GPT-4o爆火的多模態(tài),,對于商湯而言并非什么新技術(shù),,已經(jīng)研究多年并投入應用。不久前,,商湯的SenseChat V5以總分80.03分的成績刷新SuperCLUE國內(nèi)最好成績,,并且在中文綜合成績上超過GPT-4-Turbo-0125,這是國內(nèi)大模型首次在SuperCLUE中文基準測試中超越GPT-4 Turbo實現(xiàn)登頂,。
「商湯的SenseChat V5刷新了SuperCLUE國內(nèi)最好成績」
商湯一直堅持AGI相關(guān)技術(shù)的原創(chuàng),,走到世界前列。王曉剛認為,,同質(zhì)化的競爭會導致資源浪費,,原創(chuàng)性是推動全球人工智能行業(yè)向前發(fā)展的源動力。當然,,原創(chuàng)也意味著更多的不確定性和更大的風險,,但如果成功,對于整個行業(yè)而言,,突破是巨大的,,這也是商湯想要實現(xiàn)的。
好評理由:
差評理由: