[汽車之家 互聯(lián)出行] 在過去一年的智能車聯(lián)測(cè)試項(xiàng)目中,,總有朋友提問:我們?cè)谖恼轮刑岬降暮芏嗝~,很難從字面理解是什么意思,,有時(shí)候會(huì)讓人摸不著頭腦,。正好借著這個(gè)各位居家“沉淀”自己的機(jī)會(huì),我們就開啟一個(gè)系列,,挨個(gè)為大家注解那些晦澀難懂的專有名詞,,講講它們的含義、背景和意義,,也備日后相關(guān)文章引用,。這第一期,我們就先聊聊語(yǔ)音控制中的那些常見名詞,。
STT和TTS
互聯(lián)網(wǎng)常識(shí)告訴我們:當(dāng)兩個(gè)字母/數(shù)字中間夾著一個(gè)“T”或者“2”時(shí),,它大概率指代“to”這個(gè)單詞,例如:P2P,、B2C,、V2X,STT和TTS也是類似,。
在部分技術(shù)文獻(xiàn)中,,這個(gè)環(huán)節(jié)也被稱為ASR(Automatic Speech Recognition,自動(dòng)語(yǔ)音識(shí)別),,是融合了語(yǔ)言學(xué),、計(jì)算機(jī)科學(xué)以及電氣工程領(lǐng)域知識(shí)和研究的一個(gè)復(fù)雜項(xiàng)目。
我們?cè)谛麄髡Z(yǔ)中經(jīng)常聽到的“語(yǔ)音引擎”,,通常就是指這五個(gè)環(huán)節(jié)的集合,。在研發(fā)當(dāng)中,盡管部分供應(yīng)商具備完整的解決方案,,但往往一輛車的語(yǔ)音控制系統(tǒng)會(huì)在不同環(huán)節(jié)選擇不同的供應(yīng)商,,彼此通力合作,才達(dá)到最終的效果。
除了我們上文中解釋過的詞匯,,NLP(Natural Language Processing,,自然語(yǔ)言處理)是把用戶的指令轉(zhuǎn)化為結(jié)構(gòu)化的、機(jī)器可理解的語(yǔ)言,。
語(yǔ)音控制是一個(gè)復(fù)雜的涉及語(yǔ)言學(xué),、計(jì)算機(jī)科學(xué)、電器工程等學(xué)科,,云端和本地融合的一項(xiàng)復(fù)雜功能,,往往需要車企的電器部門和多個(gè)供應(yīng)商同時(shí)合作,以達(dá)到最好的效果,。對(duì)服務(wù)商而言,,想提供最好的產(chǎn)品,需要在語(yǔ)言分析,、指令集上常年累月的積累,,想做好,真的不容易,。
OneShot連續(xù)說和免喚醒
在過去一年對(duì)車載語(yǔ)音控制的測(cè)試中,,有兩個(gè)“高頻詞匯”——OneShot連續(xù)說和免喚醒。它們也是除“識(shí)別率”以外,,我們最為看中的語(yǔ)音控制功能,。
你有想過為什么一定要喚醒詞嗎?因?yàn)槿嗽谌粘=涣髦泻苋菀子|發(fā)語(yǔ)音控制中的某些功能,,喚醒詞就是要規(guī)定一個(gè)時(shí)間段(喚醒之后到結(jié)束對(duì)話),,在這個(gè)時(shí)間段內(nèi),語(yǔ)音引擎才對(duì)你說的話進(jìn)行處理反饋,。在現(xiàn)階段的語(yǔ)音控制技術(shù)下,,如果沒有喚醒詞,你將被車載語(yǔ)音控制騷擾到自閉,。
那為什么不能像日常交流一樣,,直接叫名字呢?比如:李響,,幫我打開空調(diào),。也是因?yàn)閮扇齻(gè)字的名字很容易被誤識(shí)別,導(dǎo)致誤觸發(fā)語(yǔ)音控制,。所以喚醒詞通常會(huì)被設(shè)置成“疊詞”,、“打招呼+名字”以及“某某同學(xué)”等,,以降低誤觸發(fā)的概率。
但這也導(dǎo)致一個(gè)問題——人與人的交流模式完全不是這樣�,�,!下面這張圖是基本的車載語(yǔ)音控制交流模式,你看是不是特別熟悉,。
OneShot是什么意思呢,,很簡(jiǎn)單,,即喚醒詞可以和指令一起說,,而不是先說喚醒詞,等待系統(tǒng)回應(yīng)后,,再下達(dá)指令,。有了OneShot連續(xù)說功能后,是這樣的,。
免喚醒詞又是是什么意思呢,,顧名思義,連喚醒詞都免了,,不需要呼出語(yǔ)音控制功能,,直接下達(dá)指令即可,如下:
發(fā)現(xiàn)沒有,,這是一個(gè)越來越接近人與人交流方式的過程,,同時(shí)也是一個(gè)越來越缺乏禮貌的過程,對(duì)的,,人的交流方式就是沒禮貌的,。
以上是OneShot和免喚醒的含義和意義。而關(guān)于免喚醒詞,,這里還要多說兩句,,現(xiàn)階段,免喚醒主要分為兩種模式,。
或是在音樂播放界面下,,你可以直接說“暫停”,、“下一首”,、“增大音量”,而不需要先喚醒語(yǔ)音控制功能,。這是目前應(yīng)用最廣泛的免喚醒方案,。
在采用科大訊飛語(yǔ)音引擎的部分車型(長(zhǎng)安CS95、奇瑞艾瑞澤GX冠軍版等)上使用的就是這套邏輯,。
這里我們也看到,,在大部分功能都可以直接下達(dá)指令的情況下,,系統(tǒng)還是要限定一個(gè)時(shí)長(zhǎng),如果不限定時(shí)間,,誤喚醒問題出現(xiàn)的概率仍然是難以接受的,。試想一下,你和副駕駛愉悅地聊著今天天氣真不錯(cuò)時(shí),,突然,,系統(tǒng)開始自說自話:“今天北京天氣晴,空氣質(zhì)量……”這樣的情況出現(xiàn)兩次,,你可能就會(huì)永久關(guān)閉語(yǔ)音控制功能了,。
小結(jié)
車聯(lián)網(wǎng)名詞注解系列的第一期,我們解釋了語(yǔ)音控制系統(tǒng)的幾個(gè)名詞,,聊了它們的定義,、背景和價(jià)值。人與人的溝通,,其實(shí)絕大部分都是通過“說”和“聽”來實(shí)現(xiàn)的,,當(dāng)然,我們還有表情,、手勢(shì)等等,,相比之下,想要讓機(jī)器理解表情和手勢(shì)的含義就更難了,。各大車企,、研究機(jī)構(gòu)、語(yǔ)音交互方案提供商口中的類人交互,,就是讓機(jī)器學(xué)會(huì)理解語(yǔ)言,、看懂手勢(shì)甚至體會(huì)情感,語(yǔ)音控制作為其中一項(xiàng),,也才處于起步階段呢,。什么時(shí)候把“處理”真地變成“理解”,我們才進(jìn)入了下一個(gè)更加智能的階段,。(圖/文 汽車之家 鄭旭)
好評(píng)理由:
差評(píng)理由: