[汽車之家 互聯(lián)出行] 在過去一年的智能車聯(lián)測試項(xiàng)目中,,總有朋友提問:我們在文章中提到的很多名詞,很難從字面理解是什么意思,,有時候會讓人摸不著頭腦,。正好借著這個各位居家“沉淀”自己的機(jī)會,我們就開啟一個系列,,挨個為大家注解那些晦澀難懂的專有名詞,,講講它們的含義、背景和意義,,也備日后相關(guān)文章引用,。這第一期,,我們就先聊聊語音控制中的那些常見名詞,。
STT和TTS
互聯(lián)網(wǎng)常識告訴我們:當(dāng)兩個字母/數(shù)字中間夾著一個“T”或者“2”時,它大概率指代“to”這個單詞,,例如:P2P,、B2C、V2X,,STT和TTS也是類似,。
在部分技術(shù)文獻(xiàn)中,這個環(huán)節(jié)也被稱為ASR(Automatic Speech Recognition,自動語音識別),,是融合了語言學(xué),、計(jì)算機(jī)科學(xué)以及電氣工程領(lǐng)域知識和研究的一個復(fù)雜項(xiàng)目。
我們在宣傳語中經(jīng)常聽到的“語音引擎”,,通常就是指這五個環(huán)節(jié)的集合,。在研發(fā)當(dāng)中,盡管部分供應(yīng)商具備完整的解決方案,,但往往一輛車的語音控制系統(tǒng)會在不同環(huán)節(jié)選擇不同的供應(yīng)商,,彼此通力合作,才達(dá)到最終的效果,。
除了我們上文中解釋過的詞匯,,NLP(Natural Language Processing,自然語言處理)是把用戶的指令轉(zhuǎn)化為結(jié)構(gòu)化的,、機(jī)器可理解的語言,。
語音控制是一個復(fù)雜的涉及語言學(xué)、計(jì)算機(jī)科學(xué),、電器工程等學(xué)科,,云端和本地融合的一項(xiàng)復(fù)雜功能,往往需要車企的電器部門和多個供應(yīng)商同時合作,,以達(dá)到最好的效果,。對服務(wù)商而言,想提供最好的產(chǎn)品,,需要在語言分析,、指令集上常年累月的積累,想做好,,真的不容易,。
OneShot連續(xù)說和免喚醒
在過去一年對車載語音控制的測試中,有兩個“高頻詞匯”——OneShot連續(xù)說和免喚醒,。它們也是除“識別率”以外,,我們最為看中的語音控制功能。
你有想過為什么一定要喚醒詞嗎,?因?yàn)槿嗽谌粘=涣髦泻苋菀子|發(fā)語音控制中的某些功能,,喚醒詞就是要規(guī)定一個時間段(喚醒之后到結(jié)束對話),在這個時間段內(nèi),,語音引擎才對你說的話進(jìn)行處理反饋,。在現(xiàn)階段的語音控制技術(shù)下,,如果沒有喚醒詞,你將被車載語音控制騷擾到自閉,。
那為什么不能像日常交流一樣,,直接叫名字呢?比如:李響,,幫我打開空調(diào),。也是因?yàn)閮扇齻字的名字很容易被誤識別,導(dǎo)致誤觸發(fā)語音控制,。所以喚醒詞通常會被設(shè)置成“疊詞”,、“打招呼+名字”以及“某某同學(xué)”等,以降低誤觸發(fā)的概率,。
但這也導(dǎo)致一個問題——人與人的交流模式完全不是這樣�,。∠旅孢@張圖是基本的車載語音控制交流模式,,你看是不是特別熟悉,。
OneShot是什么意思呢,很簡單,,即喚醒詞可以和指令一起說,,而不是先說喚醒詞,等待系統(tǒng)回應(yīng)后,,再下達(dá)指令,。有了OneShot連續(xù)說功能后,是這樣的,。
免喚醒詞又是是什么意思呢,,顧名思義,連喚醒詞都免了,,不需要呼出語音控制功能,,直接下達(dá)指令即可,如下:
發(fā)現(xiàn)沒有,,這是一個越來越接近人與人交流方式的過程,,同時也是一個越來越缺乏禮貌的過程,對的,,人的交流方式就是沒禮貌的,。
以上是OneShot和免喚醒的含義和意義。而關(guān)于免喚醒詞,,這里還要多說兩句,,現(xiàn)階段,,免喚醒主要分為兩種模式,。
或是在音樂播放界面下,,你可以直接說“暫停”,、“下一首”,、“增大音量”,而不需要先喚醒語音控制功能,。這是目前應(yīng)用最廣泛的免喚醒方案,。
在采用科大訊飛語音引擎的部分車型(長安CS95、奇瑞艾瑞澤GX冠軍版等)上使用的就是這套邏輯,。
這里我們也看到,,在大部分功能都可以直接下達(dá)指令的情況下,系統(tǒng)還是要限定一個時長,,如果不限定時間,,誤喚醒問題出現(xiàn)的概率仍然是難以接受的。試想一下,,你和副駕駛愉悅地聊著今天天氣真不錯時,,突然,系統(tǒng)開始自說自話:“今天北京天氣晴,,空氣質(zhì)量……”這樣的情況出現(xiàn)兩次,,你可能就會永久關(guān)閉語音控制功能了。
小結(jié)
車聯(lián)網(wǎng)名詞注解系列的第一期,,我們解釋了語音控制系統(tǒng)的幾個名詞,,聊了它們的定義、背景和價值,。人與人的溝通,,其實(shí)絕大部分都是通過“說”和“聽”來實(shí)現(xiàn)的,當(dāng)然,,我們還有表情,、手勢等等,相比之下,,想要讓機(jī)器理解表情和手勢的含義就更難了,。各大車企、研究機(jī)構(gòu),、語音交互方案提供商口中的類人交互,,就是讓機(jī)器學(xué)會理解語言、看懂手勢甚至體會情感,,語音控制作為其中一項(xiàng),,也才處于起步階段呢。什么時候把“處理”真地變成“理解”,,我們才進(jìn)入了下一個更加智能的階段,。(圖/文 汽車之家 鄭旭)
好評理由:
差評理由: