[汽車之家 互聯(lián)出行] 在本次廣州車展期間,,科大訊飛展出了其最新的3.5版語音交互助手:科大訊飛智能語音助理3.5,據悉該版本在系統(tǒng)降噪和交互體驗方面有了顯著的提升,,簡言之:它可以讓你和車機之間的對話和交互體驗更接地氣,,而不再像以前那樣需要“互相適應”+“互相包容”,它的實際表現(xiàn)究竟怎么樣,?咱們上車聊�,。ㄎ闹蟹Q3.5版)
識別/降噪
談到語音識別,識別(有人說),,定位(誰在說)理解(說的啥),,是我認為最核心也最關鍵的體驗,這三步如果做不好,,那更別提后面的擴展了,。汽車行駛環(huán)境非常復雜,包含胎噪,、風噪,、發(fā)動機噪音、空調噪音以及人聲干擾,,這些噪音會隨同說話人有效音頻送入到語音識別系統(tǒng),,會嚴重影響識別效果,,因此需要進行降噪處理。
而本次在3.5版本中采用的窄波束技術,,就是為了解決這個難題而誕生的,,通過在麥克風模組中輸入兩路麥克風信號,且提前預設好它的有效區(qū)域,,只在有效區(qū)域內進行拾音,,同時進行噪聲的抑制,而在非有效區(qū)域內則抑制說話人的聲音和環(huán)境噪聲,,從而達到提升有效區(qū)域內的清晰度,,降低有效區(qū)外的噪音和環(huán)境影響,怎么樣,,聽起來是不是和主動降噪耳機有些異曲同工的意思了,?
除此之外,結合相應的降噪技術,,3.5版本中還實現(xiàn)了更為精準的控制,,它支持前排主副駕進行操作,誰喚醒的誰說了算,,比如副駕喚醒的,,那么之后的對話則僅限于車機和副駕之間,主駕打岔,?不好使,!且不同的喚醒位置對應的功能也有所不同,實現(xiàn)了各取所需,。
喚醒詞
對于喚醒詞這件事兒,,讓你印象深刻的是什么場景?當著老媽的面對著屏幕喊XXX,,結果換來一臉驚愕不已的表情,?還是無論你想干什么,,總得你好你好的喊個不停,?對于喚醒詞這件事兒,3.5版也有了自己的變化,,一句話形容就是:有事兒你可以直接說,!
在3.5版本中,你只需要對系統(tǒng)進行一次喚醒,,在一段時間內都可以持續(xù)對它吆五喝六,不用再你好XX,,你好XX,,這么絮叨了,,值得一提的是,,短時免喚醒支持全場景模式,并且無論處在云端還是本地離線環(huán)境都可以進行操作,。這樣設計的初衷很簡單:讓你感覺更像是和一個人在對話,,而不是一個冷冰冰的機器。
除此之外,,在3.5版本中,,你依舊可以對它設置稱呼,且兩個字以上的稱謂就不用說你好XXX來喚醒了,,直接招呼即可,!“XXX幫我打開窗戶”,“XXX車里太熱了”,,“XXX放一首……”是不是感覺省事兒多了,?
上下文理解
在語音交互中,很多時候我們都會有潛在的需求,,而不只是一次一句話的讓系統(tǒng)為你服務,,比如天氣、行程或者餐飲等,,3.5版本為我們提供了更加順暢的“對話可能性”,,在第一條語音交互完成后,你可以持續(xù)提出下一步的疑問或請求,,人和人之間對話:前面已經提到或涉及的事物,,在后續(xù)的對話中往往就會變成特定的用語來指代,甚至不出現(xiàn)在對話中而直接省略掉,。
“北京明天天氣怎么樣”,?→“有沒有去那里的火車票”?→“幫我訂一張”,。3.5版的語音系統(tǒng)會記錄語音對話的歷史,,并依據后續(xù)出現(xiàn)的指代或缺失信息,對歷史信息進行關聯(lián)和補全,,使得整個對話具有深度的歷史邏輯性,,這么做的目的?人都有記性對不對,。
多輪交互/所見所得
即便在語音交互時代,,也未必所有的操作都可以一步完成,,這時候就需要你和車機進行多輪的交互和確認,在3.5版本中,,多輪交互變得更加順暢了,,你可以像和好友對話問詢那般一步一步的直接確認即可,且全程支持隨時打斷,,你只要看到了你想要的結果或者需求隨時返回,、后退,直接說就行,,無需額外的操作和廢話,。
而所見即所得則同樣是基于上述結構而來的服務,在交互中,,往往你需要在很多類似結果中篩選,,尤其電話號碼或者道路,你不一定非要再說:第幾個,,你甚至可以說,,“135尾號那個”,“丹棱街上那個”,,“尾號7907的那個”,。“選擇路怒癥”患者此時可以鼓掌了,!
One-Shot信息點交互
最后我們再來看看本次3.5版本中的另一個“實用技能”:跨場景的信息點交互,,聽起來好像很費勁,?你可以理解為:支持你基于POI位置信息來進行各種混合形式的交互,,舉個最初級的例子:我在哪?→現(xiàn)在這里是哪條街,?→下一個路口怎么走,?
又或者是這樣:泰豐大廈附近有沒有韓式燒烤?出門要不要帶傘,?→最近污染嚴重嗎,?→最近的洗車房在哪?→這附近有什么吃的么,?
你還可以這樣:北京最近天氣怎么樣,?(天氣)→我想去那邊的歡樂谷,,(目的地)→附近有什么住的地方嗎,?(POI)
編輯小結:讓它越來越像個人
從當年的多媒體大屏至今天的車機互聯(lián),這塊屏幕的角度和屬性也隨著硬件一起飛速的迭代和變化,,而隨著自然語義和云端技術的介入,,我們越來越希望眼前的這塊屏幕不僅僅是個只會用詞條敷衍你的機器,,如果它是個人該多好。
顯然,,科大訊飛在3.5版本的體驗中給出了我們想看到的答案,,或者說是趨勢和方向,從源頭介入是3.5版助手的核心,,識別能力和降噪能力的大幅改進直接改善了它對你的感知能力,,借助云端技術,3.5版還實現(xiàn)了上下文的理解以及多輪對話和POI信息綜合交互等,,盡管在人機交互的路上,,我們還有很長的路要走,但起碼今天,,你終于愿意和它多嘮一會兒了,。(文/汽車之家 任博)
好評理由:
差評理由: