[汽車之家 技術(shù)講堂] 2023年11月,特斯拉宣布已開始向員工推出完全自動駕駛(FSD)V12版本,,該版本會引入神經(jīng)網(wǎng)絡(luò)系統(tǒng),,使用最新的端到端自動駕駛技術(shù),不再依賴于復(fù)雜冗長的代碼,。2024年,,F(xiàn)SD V12開始全面推送,與此同時,,F(xiàn)SD入華也成為可能,。一時間,“端到端”成為全世界自動駕駛領(lǐng)域最熱門的詞匯,。
端到端到底是什么,?落地端到端意味著車將會成為“機器人”嗎?大模型,、多模態(tài),、神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)等對全自動駕駛有多大幫助及影響?中國公司在AGI領(lǐng)域的實力究竟如何,?前段時間我們探訪了商湯總部,,對話了行業(yè)專家,,商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家,、絕影智能汽車事業(yè)群總裁王曉剛博士,,在采訪中我們也進一步了解了商湯絕影在汽車行業(yè)的發(fā)展和規(guī)劃。
「商湯是AGI領(lǐng)域的佼佼者」
「商湯的業(yè)務(wù)遍布全球」
一,、AGI和傳統(tǒng)的AI有什么區(qū)別,?什么是端到端?
AI代表人工智能,,能夠執(zhí)行特定任務(wù)或解決特定問題,,如語音識別、圖像處理和自然語言處理等,,能表現(xiàn)出高度專業(yè)化但局限于特定領(lǐng)域,,現(xiàn)如今AI技術(shù)已經(jīng)成熟并廣泛應(yīng)用于醫(yī)療、金融,、交通等行業(yè),。
「AI被應(yīng)用于高鐵檢測」
「AI被應(yīng)用于礦井作業(yè)」
「AI被應(yīng)用于醫(yī)學(xué)檢查」
AGI(通用人工智能)指的是具有人類般通用智能的系統(tǒng),能夠在不同任務(wù)和領(lǐng)域中表現(xiàn)出廣泛的適應(yīng)能力,。開發(fā)特定領(lǐng)域的人工智能系統(tǒng)相對簡單,,通過大量數(shù)據(jù)和特定算法訓(xùn)練模型即可,而AGI需要模擬人類的廣泛認(rèn)知能力和自我學(xué)習(xí)能力,,實現(xiàn)難度極高,。
「AGI對技術(shù)的要求更高」
「商湯的人工智能大裝置」
想要更好地理解端到端,需要和傳統(tǒng)的自動駕駛控制邏輯進行比較:傳統(tǒng)的自動駕駛系統(tǒng)采用模塊化部署策略,,其中每個功能,如感知,、預(yù)測和規(guī)劃,,都是單獨開發(fā)并集成到系統(tǒng)中的,執(zhí)行時需要一個環(huán)節(jié)接一個環(huán)節(jié)遞進,。端到端自動駕駛則能像人一樣,,“看”到外界場景后直接就能做出判斷,從信息輸入到?jīng)Q策執(zhí)行一氣呵成,,沒有中間環(huán)節(jié),。
直接感知強調(diào)系統(tǒng)直接從原始數(shù)據(jù)中獲取環(huán)境信息,不經(jīng)過太多的中間處理和轉(zhuǎn)換環(huán)節(jié),,這是端到端中的一個關(guān)鍵起始點,。直接決策則是基于感知結(jié)果直接生成駕駛策略和行動指令,減少了中間復(fù)雜的推理和轉(zhuǎn)換過程,,也是端到端的重要體現(xiàn),。
端到端能夠?qū)崿F(xiàn)整個自動駕駛流程的連貫性和整體性,,除了感知和決策,還包括將決策轉(zhuǎn)化為實際車輛控制動作以及整個過程中的無縫銜接和高效協(xié)同,。所以,,直接感知和直接決策是端到端的核心特征之一,但也不能簡單地將它們與端到端完全等同,,端到端是一個更全面,、涵蓋整個自動駕駛體系從輸入到輸出的概念。
「端到端是AGI技術(shù)發(fā)展的關(guān)鍵進程」
當(dāng)然,,端到端不僅可以應(yīng)用在智駕領(lǐng)域,,這種大模型更像是人的思考方式,省去了中間繁瑣的步驟,,減少了數(shù)據(jù)的損失,,從信息輸入到策略輸出,都使用同一套算法模型,,往往是包含大量數(shù)據(jù)及信息的大模型,。端到端的應(yīng)用,是AGI技術(shù)發(fā)展的關(guān)鍵進程,。
二,、發(fā)展AGI技術(shù)的核心是原創(chuàng)性
AGI技術(shù)是近幾年全世界各行業(yè)的發(fā)展重點,身為AGI領(lǐng)域的頂級專家,,王曉剛也和我們分享了一些觀點,。
談及AGI,就不能不提現(xiàn)今最火的Chat GPT,,新的GPT-4o,,將大語言模型和多模態(tài)相結(jié)合,引領(lǐng)了整個行業(yè)的發(fā)展,。但在成功的背后,,也是多家頂尖科技公司的共同進步,微軟為Open AI提供了大型軟硬件基礎(chǔ)設(shè)施,,而相關(guān)的基礎(chǔ)算法和Transformer神經(jīng)網(wǎng)絡(luò)模型,,谷歌已經(jīng)研究多年。
「商湯如影數(shù)字人視頻生成平臺」
國內(nèi)雖然也有層出不窮的大語言模型及相關(guān)應(yīng)用,,但大部分的原創(chuàng)度并不高,,很可能會陷入“價格越卷越低,但核心技術(shù)進步緩慢”的尷尬境地,。
因此,,大模型的發(fā)展不應(yīng)急于商業(yè)化,而應(yīng)著重提升其自身能力,。未來的關(guān)鍵在于多模態(tài)數(shù)據(jù)的聯(lián)合訓(xùn)練,,這需要物理學(xué),、心理學(xué)、認(rèn)知科學(xué),、數(shù)據(jù)科學(xué)和數(shù)學(xué)等多個領(lǐng)域的合作,,多樣化的數(shù)據(jù)有助于平衡偏見,減少錯覺,,使大模型更穩(wěn)定可靠,。
「語言大模型是近兩年的熱門」
目前,Open AI已經(jīng)在視頻,、圖片,、語音和文本等多模態(tài)數(shù)據(jù)的融合訓(xùn)練上取得一定進展,雖然低延遲和仿生交互只是表象,,但其背后蘊藏著AGI的雛形,。AGI的實現(xiàn)路徑依賴于訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性,多模態(tài)數(shù)據(jù)在高維空間中的對齊和融合是當(dāng)前最大的技術(shù)難點,。AGI的發(fā)展不僅需要技術(shù),,還需要信念和熱愛,中國的AGI需要自己的奧本海默,,企業(yè)應(yīng)專注于提升核心競爭力和技術(shù)的原創(chuàng)性,,而非陷入價格戰(zhàn),以推動中國AGI的長遠發(fā)展,。
「商湯一直堅持技術(shù)原創(chuàng)」
商湯一步步走來,,一直堅持技術(shù)原創(chuàng),這也是為什么在那么多人工智能相關(guān)的公司中,,商湯能夠傲視群雄,。早在2014年,商湯團隊就發(fā)布了DeepID系列人臉識別算法,,首次超過人眼識別率,,甚至超過了Facebook同期發(fā)布的DeepFace算法,實現(xiàn)了從0到1的突破,。
「商湯團隊在國內(nèi)一眾人工智能公司中傲視群雄」
2018年,商湯開始大模型相關(guān)的研究,,當(dāng)時并沒有能提供足夠算力的基礎(chǔ)設(shè)施,,甚至連國內(nèi)頂級的互聯(lián)網(wǎng)公司阿里和騰訊都沒有,商湯開始在上海臨港進行基礎(chǔ)建設(shè),,AIDC人工智能計算中心,,提前為之后的AI云計算、云服務(wù)布局,。有了自己的大型基礎(chǔ)設(shè)施,,商湯在行業(yè)內(nèi)的發(fā)展能夠更加游刃有余,。
「AIDC人工智能計算中心位于上海臨港」
2023年,端到端技術(shù)伴隨著特斯拉發(fā)布FSD V12成為行業(yè)關(guān)鍵詞,,但早在2022年,,商湯就發(fā)布了端到端技術(shù),并表示端到端是未來,。近日伴隨著GPT-4o爆火的多模態(tài),,對于商湯而言并非什么新技術(shù),已經(jīng)研究多年并投入應(yīng)用,。不久前,,商湯的SenseChat V5以總分80.03分的成績刷新SuperCLUE國內(nèi)最好成績,并且在中文綜合成績上超過GPT-4-Turbo-0125,,這是國內(nèi)大模型首次在SuperCLUE中文基準(zhǔn)測試中超越GPT-4 Turbo實現(xiàn)登頂,。
「商湯的SenseChat V5刷新了SuperCLUE國內(nèi)最好成績」
商湯一直堅持AGI相關(guān)技術(shù)的原創(chuàng),走到世界前列,。王曉剛認(rèn)為,,同質(zhì)化的競爭會導(dǎo)致資源浪費,原創(chuàng)性是推動全球人工智能行業(yè)向前發(fā)展的源動力,。當(dāng)然,,原創(chuàng)也意味著更多的不確定性和更大的風(fēng)險,但如果成功,,對于整個行業(yè)而言,,突破是巨大的,這也是商湯想要實現(xiàn)的,。
好評理由:
差評理由: