[汽車之家 技術(shù)] 1920年,,一只名叫“Radio Rex”的玩具狗可能是最早的語音系統(tǒng)識(shí)別器,,當(dāng)這只狗的名字被呼喚的時(shí)候,,它就能夠從底座上彈出來,。1992年,,當(dāng)時(shí)身為蘋果電腦公司語音組經(jīng)理的李開復(fù),通過一個(gè)名“Casper”的語音助理,在電腦上讓語音控制實(shí)現(xiàn)了文字輸入,、更改字號(hào),、更改字體、打開/退出程序等操作,,驗(yàn)證了語音控制能夠?qū)崿F(xiàn)更多智能操作,,且有取代傳統(tǒng)輸入的能力。2018年,,在語音識(shí)別技術(shù)誕生將近100年的時(shí)間后,,它仍然不成功,甚至可以說“一敗涂地”,。
2000年是一個(gè)關(guān)鍵時(shí)間點(diǎn),,語音識(shí)別系統(tǒng)開始大規(guī)模進(jìn)入到各類產(chǎn)品中,包括汽車,。但時(shí)至今日,,語音控制系統(tǒng)無論在科技產(chǎn)品還是車內(nèi)交互應(yīng)用上,都沒有取得一個(gè)令人滿意的體驗(yàn),�,?扇缃襁@項(xiàng)技術(shù)“沉寂”多年后,目前又被很多新興車企在新能源概念車中拿出,,然后加入各種“AI技術(shù)”等標(biāo)簽噱頭,,冷飯被重新再抄一次。
回頭看在早期時(shí),,語音識(shí)別準(zhǔn)確率的問題成為了人們對(duì)這種技術(shù)不信任的主要原因,,但隨著技術(shù)演進(jìn),準(zhǔn)確度和聯(lián)想能力都在提高,,可這種交互模式的利用率仍然遠(yuǎn)低于傳統(tǒng)模式,?想一想,在最常見的場景中,,你真的會(huì)用智能手里的語音控制么,?
猜測一:我們?cè)谑裁喘h(huán)境下才會(huì)使用語音控制
首先我們先想想,到底在什么情況下我們才需要使用語音操作,,或者說在什么情況下語音操作的才會(huì)取代傳統(tǒng)觸控操作,。是辦公室?行走在路上,?回到家里,?還是私密的車內(nèi)?我想無論在任何環(huán)境中,,除非你無法或者你懶于使用傳統(tǒng)操作,,才會(huì)嘗試使用語音控制,,但這種情況在當(dāng)前我們的生活中絕對(duì)不是高頻率的。
語音控制從出現(xiàn)至今其實(shí)都無法在交互創(chuàng)新層面給我們驚喜,,因?yàn)槎鄶?shù)時(shí)候它的交互效率并不高于傳統(tǒng)輸入操作,,無論是在移動(dòng)設(shè)備或者汽車上。在早期,,我們需要通過按下“語音控制按鍵”在輸入語音指令,,而現(xiàn)在雖然增加了語音喚醒指令,但在操作效率進(jìn)步空間很小難以改變局面,。
在當(dāng)前飛快的生活節(jié)奏中,低學(xué)習(xí)成本換來高效率的體驗(yàn)是所有技術(shù)產(chǎn)品都必須具備的,。很多人不愿意做深度閱讀,依靠短訊獲取信息量,,不喜歡坐在電腦前面打游戲,,而是拿起了手機(jī)(比如英雄聯(lián)盟對(duì)比王者榮耀),人們?cè)絹碓讲辉敢飧冻�,,但又希望獲得更簡單易得的收獲體驗(yàn),,語音識(shí)別在這一方面仍然有不可逾越的難關(guān)。
猜測二:以智能為口號(hào),,卻要靠“不智能”生存
我們?cè)賮硐胍幌耄髅髡Z音交互的效率比不上傳統(tǒng)操作,,但為何你還會(huì)偶爾用它?這里我們有個(gè)大膽的猜測:一個(gè)標(biāo)榜智能的技術(shù),,反而因?yàn)椤安粔蛑悄堋保抛屛覀冇行湃胃械娜ナ褂盟?/p>
人們對(duì)于新鮮技術(shù)的接受速度除了效率提升之外,,產(chǎn)生信任感也是非常重要的。記得有一部科幻電影,,女主人希望教會(huì)機(jī)器人可以完美識(shí)別人類語音以及做出準(zhǔn)確執(zhí)行,由此無上限的放開了機(jī)器人的自我學(xué)習(xí)模式,,最終這個(gè)機(jī)器人不但具備了識(shí)別能力,,還擁有了感情轉(zhuǎn)化,它會(huì)偷聽,,會(huì)告密,甚至?xí)纳刀省?/p>
而目前的語音識(shí)別技術(shù),,我們可以大膽的去使用它,,因?yàn)樗粔蛑悄埽瑝蛏�,,只能單一的接受信息和轉(zhuǎn)化,它不具備學(xué)習(xí)和思考能力,,甚至還要依賴精準(zhǔn)的語句才能進(jìn)行執(zhí)行。而如果一旦語音識(shí)別具備了自我學(xué)習(xí)能力,,你對(duì)它的信任度還會(huì)和現(xiàn)在一樣么?
在其它客觀方面,,語音識(shí)別仍有很多不夠智能的表現(xiàn),例如跨語種識(shí)別和多輪交互識(shí)別是一直以來停留在這項(xiàng)技術(shù)上的難題,,這也是目前語音交互效率仍與傳統(tǒng)輸入交互存在的差異點(diǎn)。同時(shí),,語音交互的“回刪處理”也做的并不好,,一旦我某一個(gè)指令輸錯(cuò),,語音系統(tǒng)也會(huì)進(jìn)行誤操作,,導(dǎo)致你只能重新輸入,讓人感覺很惱火的體驗(yàn),。
猜測三:打破固有的操作習(xí)慣
能夠提供足夠高的轉(zhuǎn)化效率,是所有創(chuàng)新產(chǎn)品想獲得成功的必要條件之一,,但絕不是唯一條件。人無時(shí)無刻不需要私密性,,各類技術(shù)也在為私密性上作出創(chuàng)新,,例如降噪耳機(jī)等等。但語音輸入顯然直觀的破壞著交互方式的私密性,,國外研究機(jī)構(gòu)曾把這種破壞感稱之為“Shame”(羞恥感),的確,,即便是一個(gè)人在車?yán)�,,你仍然不想�?duì)著空調(diào)大喊:制冷!強(qiáng)風(fēng),!恒溫!
所以語音識(shí)別想要挑戰(zhàn)傳統(tǒng)交互仍需要作出更多的創(chuàng)新內(nèi)容,,例如谷歌在今年的開發(fā)者大會(huì)上就提出了一種新理論:既然我們都不想去“主動(dòng)培養(yǎng)”語音交互習(xí)慣,那技術(shù)能不能從“被動(dòng)培養(yǎng)”方面作出開拓呢,?
谷歌的這套理論在現(xiàn)實(shí)中的應(yīng)用會(huì)是這樣的,,例如你仍用傳統(tǒng)方法輸入指令,但指令的轉(zhuǎn)換會(huì)用語音模式向?qū)Ψ竭M(jìn)行表達(dá)或者執(zhí)行,。例如你周三想去理發(fā)店,,在備忘錄中記錄了這條消息,,那么語音系統(tǒng)可以主動(dòng)打電話幫助你在理發(fā)店預(yù)訂。再例如你在開車中收到了短訊,,為了不影響你安全駕駛,,語音系統(tǒng)會(huì)幫你屏蔽鈴聲,并提醒你對(duì)方身份和將文字轉(zhuǎn)換成語音向你匯報(bào),。
因?yàn)槲覀冋娴暮茈y去主動(dòng)培養(yǎng)一種新習(xí)慣,就像現(xiàn)在全球仍有大批量Windows用戶不想學(xué)習(xí)Win10系統(tǒng)而繼續(xù)使用Win 7甚至Win XP,,雖然前者在效率以及功能方面已經(jīng)遠(yuǎn)超于后者,,但在改變習(xí)慣這件事上,,或許是人類本能的一大“硬傷”,。
總結(jié):顛覆性的交互體驗(yàn)會(huì)帶來顛覆性的變革
十年前,觸屏技術(shù)徹底顛覆了一代產(chǎn)品,,無論是手機(jī)還是汽車,,為人類提供了一種真正全新的交互模式。觸控除了帶來效率提升和準(zhǔn)確性外,,也在其它維度上提供了不可估量的創(chuàng)新空間,例如UI系統(tǒng),,所以它能被稱得上是顛覆性技術(shù),而顯然語音交互并不具備這個(gè)能力,。同理,,現(xiàn)在在車載上應(yīng)用的手勢交互似乎要比語音識(shí)別更令人感到尷尬。
下一個(gè)同樣能夠帶來顛覆性交互的技術(shù)會(huì)是什么,?眼球控制或者腦電波傳輸,,但無論任何一種,都應(yīng)該具備挑戰(zhàn)我們上述三種猜測的能力,,它的到來,,一定又是一場全產(chǎn)品線的革命。但對(duì)于下一輪汽車技術(shù)的展望,,我真的并不看好語音交互還會(huì)帶來多大的創(chuàng)新空間,,顯然這條路線也僅僅只能作為一些車企炒噱頭的手段罷了。(文/圖 汽車之家 姚嘉)
好評(píng)理由:
差評(píng)理由: