歷史上的前車之鑒 車內(nèi)語音識別靠譜么

2021-12-23 18:12:52 作者:問答叫獸

1920年,一只名叫“無線電雷克斯”的玩具狗可能是最早的語音系統(tǒng)識別器。當(dāng)狗的名字被叫時(shí),它會跳出它的底座。1992年,時(shí)任蘋果電腦公司語音組經(jīng)理的李開復(fù),用一個(gè)叫卡斯珀的語音助手,讓語音控制在電腦上實(shí)現(xiàn)文字輸入、字體大小變化、開/關(guān)程序等操作,驗(yàn)證了語音控制可以實(shí)現(xiàn)更智能的操作,有能力替代傳統(tǒng)輸入。2021年,在語音識別技術(shù)誕生近100年后,仍然不成功,甚至“徹底失敗”。

2000年是一個(gè)關(guān)鍵的時(shí)間點(diǎn),語音識別系統(tǒng)開始大規(guī)模進(jìn)入各類產(chǎn)品,包括汽車。然而,到目前為止,語音控制系統(tǒng)在技術(shù)產(chǎn)品和車內(nèi)交互應(yīng)用方面都沒有取得令人滿意的體驗(yàn)。但現(xiàn)在這項(xiàng)技術(shù)已經(jīng)“沉寂”了很多年,現(xiàn)在在新能源概念車中被很多新興車企拿出來,再加上“AI技術(shù)”等各種標(biāo)簽,冷飯又被復(fù)制了。

回顧早期,語音識別的準(zhǔn)確性問題成為人們不信任這項(xiàng)技術(shù)的主要原因。然而,隨著技術(shù)的發(fā)展,準(zhǔn)確率和聯(lián)想能力都在提高,但這種互動模式的使用率仍然遠(yuǎn)遠(yuǎn)低于傳統(tǒng)模式。想一想,在最常見的場景中,你真的能用到智能手里的聲控嗎?

猜一猜:在什么情況下我們會使用語音控制?

首先我們來思考一下在什么情況下需要使用語音操作,或者在什么情況下語音操作會取代傳統(tǒng)的觸摸操作。是辦公室嗎?好吧,走在路上?回家?還是坐私家車?我想無論在任何環(huán)境下,除非你無法或者懶得使用傳統(tǒng)操作,你都會嘗試使用語音控制,但這種情況在我們現(xiàn)在的生活中絕對不是高頻。

語音控制自出現(xiàn)以來,在交互創(chuàng)新的層面上并不能讓我們感到驚訝,因?yàn)楹芏鄷r(shí)候它的交互效率并不比傳統(tǒng)的輸入操作高,無論是在移動設(shè)備還是汽車上。在早期,我們需要通過按下“語音控制按鈕”來輸入語音命令?,F(xiàn)在雖然增加了語音喚醒命令,但是在提高運(yùn)行效率空之間很難改變局面。

目前,在快節(jié)奏的生活中,所有技術(shù)產(chǎn)品都有必要用低學(xué)習(xí)成本換取高效率的體驗(yàn)。很多人不愿意做深度閱讀,靠短信獲取信息,不喜歡坐在電腦前玩游戲,而是拿起手機(jī)。人們越來越不愿意付出,卻希望獲得更簡單更輕松的收獲體驗(yàn)。語音識別在這方面還有不可克服的困難。

猜想二:以智力為口號,卻靠“沒有智力”生存。

我們再想想。很明顯,語音交互的效率不如傳統(tǒng)操作,但為什么偶爾會用到呢?我們在這里有一個(gè)大膽的猜測:一項(xiàng)標(biāo)榜智能的技術(shù),恰恰相反,因?yàn)椤安粔蛑悄堋保屛覀冏孕诺厥褂盟?/p>

除了提高效率,人們對接受新技術(shù)有信任感也非常重要。記得有一部科幻電影,女主人想教機(jī)器人完美識別人聲并準(zhǔn)確執(zhí)行,從而無限制地放開機(jī)器人的自學(xué)習(xí)模式。最后,機(jī)器人不僅有識別能力,還有情感轉(zhuǎn)化,可以偷聽,可以講故事,甚至可以吃醋。

目前,我們可以大膽地使用語音識別技術(shù),因?yàn)樗粔蚵斆?,不夠愚蠢,只能單?dú)接受信息和轉(zhuǎn)換。它沒有學(xué)習(xí)和思考的能力,甚至依賴精確的語句來實(shí)現(xiàn)。而如果一旦語音識別具備了自我學(xué)習(xí)能力,你對它的信任度會和現(xiàn)在一樣嗎?

在其他客觀方面,語音識別仍然不夠智能。比如跨語言識別和多輪交互識別就是一直卡在這項(xiàng)技術(shù)中的難題,這也是語音交互與傳統(tǒng)輸入交互效率的差異。同時(shí),語音交互的“回刪處理”也不好。一旦我輸入了錯(cuò)誤的命令,語音系統(tǒng)也會運(yùn)行不正常,導(dǎo)致你不得不重新輸入,讓人覺得很煩。

猜想:打破固有的操作習(xí)慣。

提供足夠高的轉(zhuǎn)換效率是所有創(chuàng)新產(chǎn)品成功的必要條件之一,但絕不是唯一的條件。人們并不是一直都需要隱私,各種技術(shù)也在為隱私做創(chuàng)新,比如降噪耳機(jī)等等。然而,語音輸入顯然直接破壞了交互模式的私密性。國外研究機(jī)構(gòu)曾將這種毀滅感稱為“羞恥”。的確,即使你一個(gè)人在車?yán)?,你還是不想沖著空大喊:酷!大風(fēng)!恒溫!

因此,語音識別要想挑戰(zhàn)傳統(tǒng)交互,還需要做更多的創(chuàng)新。比如谷歌在今年的開發(fā)者大會上提出了一個(gè)新的理論:既然我們不想“主動培養(yǎng)”語音交互習(xí)慣,技術(shù)能從“被動培養(yǎng)”發(fā)展起來嗎?

谷歌理論在現(xiàn)實(shí)中的應(yīng)用會是這樣的。比如你還是用傳統(tǒng)的方法輸入指令,但指令的轉(zhuǎn)換會通過語音方式向?qū)Ψ奖磉_(dá)或執(zhí)行。例如,如果你想在周三去理發(fā)店,并在備忘錄中記錄這條消息,那么語音系統(tǒng)可以主動打電話來幫助你在理發(fā)店預(yù)訂。比如你在開車的時(shí)候收到一條短信,為了不影響你的安全駕駛,語音系統(tǒng)會幫你屏蔽鈴聲,提醒你對方的身份,并通過將文字轉(zhuǎn)換成語音的方式向你報(bào)告。

因?yàn)槲覀冋娴暮茈y去積極培養(yǎng)一個(gè)新的習(xí)慣,就像現(xiàn)在全球還有大量的Windows用戶不愿意學(xué)習(xí)Win10系統(tǒng),繼續(xù)使用Win 7甚至Win XP一樣。雖然前者在效率和功能上遠(yuǎn)遠(yuǎn)超過了后者,但改變習(xí)慣可能是人類本能的一大“硬傷”。

總結(jié):顛覆性的互動體驗(yàn)會帶來顛覆性的變化。

十年前,觸摸屏技術(shù)徹底顛覆了一代產(chǎn)品,無論是手機(jī)還是汽車,為人類提供了一種真正全新的交互方式。除了提高效率和準(zhǔn)確性,觸控還在其他維度上提供了不可估量的創(chuàng)新空,比如UI系統(tǒng),因此可以稱之為顛覆性技術(shù),但顯然語音交互不具備這種能力。同樣,應(yīng)用于車輛的手勢交互現(xiàn)在似乎比語音識別更尷尬。

下一個(gè)也能帶來顛覆性互動的技術(shù)會是什么?眼控或者腦電波傳輸,但無論任何一種,它都應(yīng)該有能力挑戰(zhàn)以上三種猜測。它的到來絕對會是整個(gè)產(chǎn)品線的一次革命。但對于下一輪汽車技術(shù)的前景,我真的不看好空語音交互會帶來多大的創(chuàng)新。顯然,這條路線只能作為一些汽車公司炒作噱頭的手段。

點(diǎn)擊此處了解詳情。

>>點(diǎn)擊查看今日優(yōu)惠<<

    本文導(dǎo)航
    熱門文章
    TOP推薦
    相關(guān)閱讀
    點(diǎn)擊加載更多