[汽車(chē)之家 互聯(lián)出行] 在過(guò)去一年的智能車(chē)聯(lián)測(cè)試項(xiàng)目中,總有朋友提問(wèn):我們?cè)谖恼轮刑岬降暮芏嗝~,,很難從字面理解是什么意思,,有時(shí)候會(huì)讓人摸不著頭腦。正好借著這個(gè)各位居家“沉淀”自己的機(jī)會(huì),,我們就開(kāi)啟一個(gè)系列,,挨個(gè)為大家注解那些晦澀難懂的專(zhuān)有名詞,講講它們的含義,、背景和意義,,也備日后相關(guān)文章引用。這第一期,,我們就先聊聊語(yǔ)音控制中的那些常見(jiàn)名詞,。
STT和TTS
互聯(lián)網(wǎng)常識(shí)告訴我們:當(dāng)兩個(gè)字母/數(shù)字中間夾著一個(gè)“T”或者“2”時(shí),它大概率指代“to”這個(gè)單詞,,例如:P2P、B2C,、V2X,,STT和TTS也是類(lèi)似。
在部分技術(shù)文獻(xiàn)中,,這個(gè)環(huán)節(jié)也被稱(chēng)為ASR(Automatic Speech Recognition,,自動(dòng)語(yǔ)音識(shí)別),是融合了語(yǔ)言學(xué),、計(jì)算機(jī)科學(xué)以及電氣工程領(lǐng)域知識(shí)和研究的一個(gè)復(fù)雜項(xiàng)目,。
我們?cè)谛麄髡Z(yǔ)中經(jīng)常聽(tīng)到的“語(yǔ)音引擎”,通常就是指這五個(gè)環(huán)節(jié)的集合,。在研發(fā)當(dāng)中,,盡管部分供應(yīng)商具備完整的解決方案,但往往一輛車(chē)的語(yǔ)音控制系統(tǒng)會(huì)在不同環(huán)節(jié)選擇不同的供應(yīng)商,彼此通力合作,,才達(dá)到最終的效果,。
除了我們上文中解釋過(guò)的詞匯,NLP(Natural Language Processing,,自然語(yǔ)言處理)是把用戶(hù)的指令轉(zhuǎn)化為結(jié)構(gòu)化的,、機(jī)器可理解的語(yǔ)言。
語(yǔ)音控制是一個(gè)復(fù)雜的涉及語(yǔ)言學(xué),、計(jì)算機(jī)科學(xué),、電器工程等學(xué)科,云端和本地融合的一項(xiàng)復(fù)雜功能,,往往需要車(chē)企的電器部門(mén)和多個(gè)供應(yīng)商同時(shí)合作,,以達(dá)到最好的效果。對(duì)服務(wù)商而言,,想提供最好的產(chǎn)品,,需要在語(yǔ)言分析、指令集上常年累月的積累,,想做好,,真的不容易。
OneShot連續(xù)說(shuō)和免喚醒
在過(guò)去一年對(duì)車(chē)載語(yǔ)音控制的測(cè)試中,,有兩個(gè)“高頻詞匯”——OneShot連續(xù)說(shuō)和免喚醒,。它們也是除“識(shí)別率”以外,我們最為看中的語(yǔ)音控制功能,。
你有想過(guò)為什么一定要喚醒詞嗎,?因?yàn)槿嗽谌粘=涣髦泻苋菀子|發(fā)語(yǔ)音控制中的某些功能,喚醒詞就是要規(guī)定一個(gè)時(shí)間段(喚醒之后到結(jié)束對(duì)話),,在這個(gè)時(shí)間段內(nèi),,語(yǔ)音引擎才對(duì)你說(shuō)的話進(jìn)行處理反饋。在現(xiàn)階段的語(yǔ)音控制技術(shù)下,,如果沒(méi)有喚醒詞,,你將被車(chē)載語(yǔ)音控制騷擾到自閉。
那為什么不能像日常交流一樣,,直接叫名字呢,?比如:李響,幫我打開(kāi)空調(diào),。也是因?yàn)閮扇齻(gè)字的名字很容易被誤識(shí)別,,導(dǎo)致誤觸發(fā)語(yǔ)音控制,。所以喚醒詞通常會(huì)被設(shè)置成“疊詞”、“打招呼+名字”以及“某某同學(xué)”等,,以降低誤觸發(fā)的概率,。
但這也導(dǎo)致一個(gè)問(wèn)題——人與人的交流模式完全不是這樣啊,!下面這張圖是基本的車(chē)載語(yǔ)音控制交流模式,,你看是不是特別熟悉。
OneShot是什么意思呢,,很簡(jiǎn)單,,即喚醒詞可以和指令一起說(shuō),而不是先說(shuō)喚醒詞,,等待系統(tǒng)回應(yīng)后,,再下達(dá)指令。有了OneShot連續(xù)說(shuō)功能后,,是這樣的,。
免喚醒詞又是是什么意思呢,顧名思義,,連喚醒詞都免了,,不需要呼出語(yǔ)音控制功能,直接下達(dá)指令即可,,如下:
發(fā)現(xiàn)沒(méi)有,,這是一個(gè)越來(lái)越接近人與人交流方式的過(guò)程,同時(shí)也是一個(gè)越來(lái)越缺乏禮貌的過(guò)程,,對(duì)的,,人的交流方式就是沒(méi)禮貌的。
以上是OneShot和免喚醒的含義和意義,。而關(guān)于免喚醒詞,,這里還要多說(shuō)兩句,現(xiàn)階段,,免喚醒主要分為兩種模式,。
或是在音樂(lè)播放界面下,你可以直接說(shuō)“暫�,!�,、“下一首”,、“增大音量”,,而不需要先喚醒語(yǔ)音控制功能。這是目前應(yīng)用最廣泛的免喚醒方案,。
在采用科大訊飛語(yǔ)音引擎的部分車(chē)型(長(zhǎng)安CS95,、奇瑞艾瑞澤GX冠軍版等)上使用的就是這套邏輯,。
這里我們也看到,在大部分功能都可以直接下達(dá)指令的情況下,,系統(tǒng)還是要限定一個(gè)時(shí)長(zhǎng),,如果不限定時(shí)間,誤喚醒問(wèn)題出現(xiàn)的概率仍然是難以接受的,。試想一下,,你和副駕駛愉悅地聊著今天天氣真不錯(cuò)時(shí),突然,,系統(tǒng)開(kāi)始自說(shuō)自話:“今天北京天氣晴,,空氣質(zhì)量……”這樣的情況出現(xiàn)兩次,你可能就會(huì)永久關(guān)閉語(yǔ)音控制功能了,。
小結(jié)
車(chē)聯(lián)網(wǎng)名詞注解系列的第一期,,我們解釋了語(yǔ)音控制系統(tǒng)的幾個(gè)名詞,聊了它們的定義,、背景和價(jià)值,。人與人的溝通,其實(shí)絕大部分都是通過(guò)“說(shuō)”和“聽(tīng)”來(lái)實(shí)現(xiàn)的,,當(dāng)然,,我們還有表情、手勢(shì)等等,,相比之下,,想要讓機(jī)器理解表情和手勢(shì)的含義就更難了。各大車(chē)企,、研究機(jī)構(gòu),、語(yǔ)音交互方案提供商口中的類(lèi)人交互,就是讓機(jī)器學(xué)會(huì)理解語(yǔ)言,、看懂手勢(shì)甚至體會(huì)情感,,語(yǔ)音控制作為其中一項(xiàng),也才處于起步階段呢,。什么時(shí)候把“處理”真地變成“理解”,,我們才進(jìn)入了下一個(gè)更加智能的階段。(圖/文 汽車(chē)之家 鄭旭)
好評(píng)理由:
差評(píng)理由: