[汽車之家 新鮮技術(shù)解讀] 在2024年2月15日,,我們的正月初六,在一片祥和中,,OpenAI發(fā)布了視頻生成模型的最新系統(tǒng),,Sora。變革的車輪又一次加快了自己的步伐,,在未來的日子里,我們是會被碾壓,,還是搭上高速發(fā)展的列車,?Sora與汽車行業(yè)在近期會有哪些交集?我嘗試著從自己的小認知中淺淺展望,,為了能方便大家理解,,關(guān)于OpenAI的歷史,我也羅列了一些,。
◆ 認識Sora母公司OpenAI
OpenAI作為主攻人工智能的企業(yè),,創(chuàng)立的初衷是為了對抗人工智能存在的風險,,并且與咱們汽車行業(yè)的老熟人,埃隆·馬斯克有著千絲萬縷的聯(lián)系,。說來話長,,咱慢慢縷。2012年,,馬斯克認識了戴密斯·哈薩比斯,,哈薩比斯就是后來顛覆圍棋界的AlphaGo之父,哈薩比斯創(chuàng)辦了一家名為“DeepMind”的公司,,試圖打造一種能像人類一樣學習,、思考的機器,吸引馬斯克除了DeepMind尖端技術(shù),,更重要的是哈薩比斯對于人工智能的警惕性,。
『AlphaGo之父,哈薩比斯』
哈薩比斯認為機器如果進化成了超級智能,,在未知邏輯下可能做出把人類消滅的決定,。馬斯克也曾表示他之所以要打造可以飛往火星的火箭,是為了應對在發(fā)生世界大戰(zhàn)等人類文明,、物種面臨危機時,,星際移民或許是一種可能保存人類物種、文明的方式,。除了火箭,,還有后來的腦機接口,我們都可以看到馬斯克對于人類物種,、文明滅絕的警惕性,。在這樣的警覺下,兩人一見如故,,馬斯克向哈薩比斯創(chuàng)立的DeepMind投資了500萬美元,。
關(guān)于人工智能毀滅人類的邏輯,《超級智能》一書提出的“回形針”有著很好的比喻,,如果一臺機器的唯一目標就是最大化地量產(chǎn)回形針,,當它擁有足夠的資源調(diào)控能力,那它有可能會發(fā)明些匪夷所思的技術(shù),,只為了把宇宙中能用的資源都轉(zhuǎn)化成回形針,,人工智能的目的不一定是直接毀滅人類,人類的毀滅只是順便,。
在DeepMind發(fā)展的同時,,咱繼續(xù)跟著馬斯克的視角看人工智能。在2013年馬斯克的生日派對上,,另一個人工智能的領(lǐng)頭人,,谷歌公司的創(chuàng)始人之一拉里·佩奇跟馬斯克爭論了一番,,生日派對上跟主人抬杠多少顯得有些不禮貌,佩奇指責馬斯克是 “ 物種主義者 ”,,只偏袒自己這個物種的生存,,佩奇認為,如果有一天機器的智力,,甚至機器的意識,,都超過了人類,會迫使人類去適應環(huán)境,,從而得到新的進化,。
谷歌創(chuàng)始人謝爾蓋·布林(左)和拉里·佩奇(右)
兩人的爭論不僅僅停留在嘴上,同年年底,,谷歌收購了DeepMind公司,。馬斯克嘗試過籌錢給DeepMind融資,以此來阻止這筆交易,,但馬斯克還是失敗了,。
『現(xiàn)在搜到的DeepMind已經(jīng)有谷歌標識了』
他轉(zhuǎn)頭去找了奧特曼,奧特曼和馬斯克決定創(chuàng)辦一個非營利性的人工智能研究實驗室,,他們將其命名為 “ OpenAI ”,。實驗室的軟件是開源的,將努力對抗谷歌在人工智能領(lǐng)域日漸強大的主導地位,。后來OpenAI發(fā)布了很多家喻戶曉的產(chǎn)品,,但事情并沒有像馬斯克期待的那樣。
2016年4月,,OpenAI發(fā)布OpenAI Gym公共測試版,,這是強化學習研究平臺。12月,,OpenAI發(fā)布“Universe”軟件平臺,,用于測量和訓練AI在全球游戲、網(wǎng)站和其他應用匯總的通用智能,。
2018年,,公司發(fā)布了一篇名為《通過生成式預訓練來改進語言理解》的論文,介紹了生成式預訓練轉(zhuǎn)換器(GPT)的概念,。GPT是神經(jīng)網(wǎng)絡是受人類大腦結(jié)構(gòu)和功能啟發(fā)的機器學習模型,,用于訓練大量由人生成的文本數(shù)據(jù)集。
有人把生成式人工智能比作原子能,,開啟了生存還是滅亡的議題。為什么這么講,?我們來看下生成式人工智能的名詞解釋以及它的運行原理,。生成式人工智能(英語:Generative artificial intelligence,,或稱Generative AI、生成式AI,、產(chǎn)生式AI)能夠產(chǎn)生文字,、圖像或其他媒體以回應提示工程,ChatGPT就是生成式人工智能,。區(qū)別于以往基于數(shù)據(jù)庫的搜索,、預算能力,生成式AI可以產(chǎn)生與訓練數(shù)據(jù)相似但具有一定程度新穎性的新內(nèi)容,,打開自我進化的路線,。
用來處理生成式人工智能的最突出框架包括了生成對抗網(wǎng)絡,生成對抗網(wǎng)絡通過生成和判別兩個神經(jīng)網(wǎng)絡互相博弈的方式進行學習,。生成網(wǎng)絡從潛在空間中隨機取樣作為輸入樣本,,生成的結(jié)果盡量模仿訓練集中的真實樣本。判別網(wǎng)絡對生成網(wǎng)絡進行辨別,,否定它認為的不真實樣本,。
『生成對抗網(wǎng)絡示意圖』
生成網(wǎng)絡產(chǎn)出的內(nèi)容,要盡可能的通過判別網(wǎng)絡的識別,,只要識別不出來內(nèi)容有假,,則生成的內(nèi)容越貼近真實。博弈過程中不需要清晰的邏輯,,只要生成對抗網(wǎng)絡的數(shù)據(jù)庫,、算力足夠大,就可以產(chǎn)出更優(yōu)的內(nèi)容,。博弈過程就好比我不需要對你說真話,,只需讓你辨別不出我的話錯在哪里,你自然認為我說的是真話,。
『美�,。篖ie to me(來,騙我) 海報』
生成網(wǎng)絡不斷的說話,,辨別網(wǎng)絡不斷篩錯,。到我們眼前的,即是辨別網(wǎng)絡找不到錯誤的內(nèi)容,,算力,、數(shù)據(jù)庫越大,生成數(shù)據(jù)越多,、判別能力越強,,內(nèi)容也就愈加沒有BUG,人工智能進入大力出奇跡的時代。
馬斯克對OpenAI公司的運作方式擔憂,,認為該公司沒有足夠關(guān)注人工智能可能帶來的風險,,而是過度關(guān)注商業(yè)應用。因為安全理念問題,,馬斯克與奧特曼基本決裂,,2018年2月馬斯克辭去董事會席位。
接著OpenAI團隊開發(fā)了GPT-1,,這是他們的第一個語言模型,,包含超過7,000本未發(fā)表書籍的BookCorpus為基礎(chǔ)進行“訓練”。這個模型最終演變成GPT-2,,可訓練的樣本來自800萬個網(wǎng)頁,,含有15億個參數(shù),這些訓練值使得文本預測成為可能,。
2019年3月,,OpenAI LP子公司成立,目的為盈利所用,,該公司隨后與微軟合作,,并在同年7月得到微軟10億美元的投資,并且為了實現(xiàn)人工智能的算力,,微軟還為OpenAI設計了超級計算機,。
『微軟超級計算機』
2020年6月OpenAI宣布GPT-3語言模型;同年微軟宣布建成一臺排名世界前五的超級計算機,,專門用于在Azure公有云上訓練超大規(guī)模的人工智能模型,。這一超級計算機由微軟與OpenAI合作研發(fā),擁有超過28.5萬個CPU核心,、1萬個GPU,、每GPU擁有400Gbps網(wǎng)絡帶寬的單一系統(tǒng)超級計算機。那數(shù)據(jù)庫有多大,,以GPT-3為例,,它已經(jīng)將互聯(lián)網(wǎng)上幾乎所有文本數(shù)據(jù)作為訓練語料,過濾后的訓練數(shù)據(jù)達5000億的單詞數(shù),,維基百科內(nèi)容夠大不,?僅占了GPT-3數(shù)據(jù)的0.6%。
2021年OpenAI推出DALL-E,,這是一種深度學習模型,,可以從自然語言描述中生成數(shù)字圖像;2022年11月,,OpenAI發(fā)布自然語言生成模型ChatGPT,。
2023年3月,OpenAI發(fā)布了官方ChatGPT API,并允許第三方開發(fā)者利用該API將ChatGPT集成到他們的網(wǎng)站,、產(chǎn)品和服務中,,印象中那段時間各個品牌的智能AI如雨后春素,我認為這與ChatGPT API開放授權(quán)高度相關(guān),。
同期,OpenAI布了GPT-4,。至于GPT-4有多強,,它除了能夠接受文本和圖像輸入外,OpenAI宣布更新后的技術(shù)通過了模擬法學院律師考試,,得分在組內(nèi)應試者的前10%,;相比之下,之前版本的GPT-3.5成績還在倒數(shù)10%,。
表格顯示,,在法學考試中民事訴訟GPT-4得分率61.1%,人類考生59%,;憲法GPT-4得分率69.4%,,人類考生72%;合同法GPT-4得分率88.1%,,人類考生70%,;刑法GPT-4得分率81.1%,人類考生71%,;證據(jù)法GPT-4得分率85.2%,,人類考生65%;物權(quán)法GPT-4得分率79.7%,,人類考生65%,;侵權(quán)行為法GPT-4得分率64.9%,人類考生71%,。
人工智能在越來越多的,,人類曾引以為傲的領(lǐng)域超過人類。前沿科學家對人工智能的不可控也越來越擔憂,。人工智能的進化是通過海量數(shù)據(jù)在巨量級的模型上訓練出來的,,而這些數(shù)據(jù)無法都經(jīng)過人工清洗,因此里邊會包含虛假,、偏見,、無用、有害,、不合乎人類價值觀的訓練樣本,,因此產(chǎn)出的內(nèi)容同樣無法保證不包含以上內(nèi)容。
為了解決價值觀問題,由谷歌跳槽到OpenAI的首席科學家,、董事會成員Ilya Sutskever成立了超級對齊項目研發(fā)團隊,,計劃未來4年投入20%算力,用AI監(jiān)督AI的方式,,解決人工智能“AI對齊”問題,。“AI對齊”的意思是,,要求AI系統(tǒng)的目標要和人類的價值觀與利益相一致,。
Ilya Sutskever認為人工智能的發(fā)展,安全優(yōu)先于速度,,奧特曼似乎對此并不認可,,后來Ilya Sutskever出于安全考慮,對董事會提出了奧特曼的罷免,,之后這件事在全球鬧得沸沸揚揚,,奧特曼在遭罷免之后,又回到了OpenAI,。
當下,,在2023年對罷免奧特曼提出贊成票的三位原董事會成員,均已不在最新的董事會成員名單之上,。
2024年2月15日,,OpenAI發(fā)布了Sora,該模型能夠生成長達1分鐘的視頻,。
◆ 簡單認識Sora
有了以上的知識儲備,,認識Sora就簡單多了。Sora的底層,,采用的是Transformer架構(gòu),,建立在過去的DALL·E和GPT的基礎(chǔ)之上,采用了DALL·E3中的重述技術(shù),。整個流程大家可以簡單的理解為Sora通過GPT的理解能力,,對其描述的事件搜索資料庫,再對資料庫內(nèi)容進行整理拼接,,生成我們所描述的事件,,過程同樣生成對抗網(wǎng)絡的大力出奇跡的模式。在Sora之前,,OpenAI的產(chǎn)品就已經(jīng)具備生成視頻的能力,,只不過不太盡人意。
2023年的OpenAI還是個傻子,,單就威爾史密斯吃意大利面的這套動作來看,,AI還沒具備基本的生存能力,吃飯,。2024年的正月,,Sora做出來的視頻下方可以看到。
◆ Sora對汽車行業(yè)的影響
Sora對汽車行業(yè)的影響有限,,但對媒體行業(yè),,我認為沖擊不小。前段時間,,有媒體自購車所做的碰撞視頻在業(yè)內(nèi)引起過一波討論,,我們也從技術(shù)的的角度進行了解讀,無論是自購車碰撞亦或是真實的事故,,對我們的安全知識學習都起到了正面意義。而Sora的到來,,對真實的沖擊會有多大,?
接下來我們來看一段Sora生成的視頻,該視頻的文內(nèi)輸入內(nèi)容為,,“無人機拍攝的海浪沖擊著大蘇爾迦雷角海灘海灘上崎嶇的懸崖,。藍色的海水拍打著白色的波浪,夕陽的金色光芒照亮了巖石海岸,。遠處有一座小島,,島上有一座燈塔,懸崖邊上長滿了綠色的灌木叢,。從公路到海灘的陡峭落差是堪稱壯舉,,懸崖的邊緣突出在海面上。畫面捕捉到海岸原始美景和太平洋海岸公路崎嶇景觀”,。
該視頻我在沒有給提示前,被我抓來驗證真?zhèn)蔚?個同事坦言并不知道是Sora生成的,,就連我在知道答案的前提下,,也未能找出該視頻中的物理BUG。
聊到這里相信大家已經(jīng)猜出了我要說什么,,虛擬內(nèi)容越來越真實,,成本越來越低,網(wǎng)絡難免會充斥各種很難辨別的“非真實”消息,,對公眾識別真假的能力提出了更高的要求,,對天真的朋友可能會是極大的考驗,想想家庭群中的養(yǎng)生信息,。
『汽車的眼睛,,攝像頭』
另一方面,,我想試著展望Sora對智能駕駛的推動作用,大家都知道當下汽車已經(jīng)具備“圖像”識別能力,,以往遇到事故,,想要復盤測試,需要在虛幻引擎生成場景還得建模,、貼圖甚至放置攝像機等工作,,尤其是一些非主流事故,現(xiàn)場還原難度大,,收益也不高,。
『黑客帝國:覺醒;虛幻引擎5打造』
若能利用Sora視頻,,將邊角案例事故場景還原出來了,,作為自動駕駛系統(tǒng)的圖像輸入去學習,或許能夠大幅提升系統(tǒng)對邊角案例的學習效率,。不過這個比例需要把握好,,否則智能駕駛一樣會脫離現(xiàn)實世界。
◆ 對Sora的態(tài)度
Sora的到來,,我認為首先會影響很多行業(yè)的起跑線,,經(jīng)驗、技術(shù)的壁壘不再牢固,。舉個例子,,以往要想做動畫短片,除了要有好的創(chuàng)意,,動畫軟件的學習使用恐怕也需要3,、5年的時間。現(xiàn)在通過Sora,,從有好的創(chuàng)意到產(chǎn)出優(yōu)秀內(nèi)容,,大家認為會是多久呢?
我們再來看看來自AI的回復,,AI表示可能面臨失業(yè)的人群是視覺效果藝術(shù)家和動畫師,、平面設計師、電影和視頻編輯,、作家和編劇,、演員和配音演員、導演和制片人中涉及高度重復性任務的工作,。例如,,基本的視頻編輯或簡單的平面設計任務可能會被自動化;可以標準化或模板化的制作和后期制作任務可能會被自動化,。
以下畫作來自AI生成,,關(guān)于藝術(shù),,人類最偉大最自豪的文化產(chǎn)物,人工智能已經(jīng)表達出了十分高超的水平,。
『AI生成畫作 太空歌劇院』
我們再來看看真實世界中,,影視人是什么態(tài)度。編劇余飛表示,,“雖然我對畫面,、聲音不是很內(nèi)行,但是以我的觀影經(jīng)驗來說,,Sora生成的畫面質(zhì)量是很厲害的,,比一般的導演拍的都好”。
紀錄片導演歐大明則認為“我看了AI生成的視頻,、圖像,,質(zhì)感都是冷冰冰的。比如走在東京街頭那個戴著墨鏡的女人,,她的表情里沒有溫度,,我感受不到氣息。對于影像作品而言,,最重要的是創(chuàng)作者的痕跡,留下你的審美和表達,,哪怕作品中存在一些誤差,,那也是人的氣息……那些人和人之間的喜怒哀樂,是一種體感,。AI最做不到的事情,,可能就是共情了”。
兩位影視行業(yè)的前輩的態(tài)度,,很好的總結(jié)了Sora到來的可能性,,余飛老師認為Sora會比“一般”更優(yōu)秀;而隨著Sora虛擬內(nèi)容充斥網(wǎng)絡時,,歐大明老師看到了有一樣東西會變得更加珍貴,,那便是真實與人性。(文/汽車之家 王鶴璇)
參考,、引用資料:
初心,、盈利、人類危機:奧特曼正式回歸OpenAI,,但錯的可能是他——知危
什么是OpenAI,?帶你詳細了解OpenAI的發(fā)展經(jīng)歷——數(shù)字極客
“硅谷新思想”有效利他主義!一文解析OpenAI宮斗背后真正的“無形之手”——財聯(lián)社
42個中國人被Sora沖擊的一周——燕青 王之言
OpenAI資料——維基百科
好評理由:
差評理由: