2021年06月04日
當你字正腔圓地對著智能音箱發(fā)問,得到的卻是讓人一臉懵逼的回答。使用過智能音箱或其它語音助手的朋友,對這一場景都不會陌生。
懷疑自己被割了智商稅的你可能會問:智能音箱為什么聽不懂人話?它能變聰明嗎?
想解答這個問題,我們需要先了解智能音箱聽懂語音的工作原理。
語音、文本、圖片、視頻,這些信息對于機器來說,屬于“非結(jié)構(gòu)化數(shù)據(jù)”,無法直接理解。機器能夠理解并作出反饋的,是“結(jié)構(gòu)化數(shù)據(jù)”。
簡單理解二者之間的區(qū)別與關(guān)系,非結(jié)構(gòu)化數(shù)據(jù)相當于寫了一段文本的word文檔,而結(jié)構(gòu)化數(shù)據(jù)則是將這段文本進行總結(jié)歸納的excel文檔。
當我們向智能音箱提問時,智能音箱會先將語音轉(zhuǎn)化為文字,然后將文字形成結(jié)構(gòu)化數(shù)據(jù)理解并反饋,最后再將文本轉(zhuǎn)化成語音輸出答案。
三大流程對應(yīng)著3種技術(shù),其中ASR(自動語音識別)和TTS(處理結(jié)果轉(zhuǎn)化成語音輸出)技術(shù)相對成熟,像ASR已廣泛應(yīng)用在語音轉(zhuǎn)文字、語音輸入法、智能翻譯筆等應(yīng)用上。據(jù)中科院2019年的測試,國內(nèi)四家主流智能音箱品牌ASR識別率均在94%以上。
智能音箱聽不懂我們的話,問題主要出在NLP(理解文字的意思并進行處理)環(huán)節(jié)上。
AI在拿到文本后,需要進行語料清洗、分詞、詞性標注、實體命名識別、去除停用詞等一系列操作,才能將文本正確轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),并作出反應(yīng)。
智能音箱今天已經(jīng)可以比較“智能“地處理明確的指令問題,比如打開電視,今天天氣怎么樣,設(shè)定鬧鐘等。
但在開放性語境下,智能音箱錯誤頻出。這是因為口語文本經(jīng)常會出現(xiàn)歧義,機器難以理解,特別是在處理同音字繁多、語法復(fù)雜的中文時,歧義的現(xiàn)象尤其多見。
比如“幫我上一個半小時之后的鬧鐘”,音箱基本沒法識別是半小時還是一個半小時。再比如“幫我預(yù)定一家餐廳不要日本菜“,AI大概率無法理解“不要”在句子中的含義。
面對復(fù)雜的自然語言,AI想要辨別、理解、消除歧義,必須要分析海量“語料”,也就是對人類語言的實例進行學習。
第二是從互聯(lián)網(wǎng)上大量抽取的文本,最常見的是從社交網(wǎng)絡(luò)中抽取,以便機器理解最新的口語表達方式。
最后則是用戶在與產(chǎn)品交互過程中產(chǎn)生的數(shù)據(jù),像我們與智能音箱對話的部分內(nèi)容,會被上傳進廠商的語料庫,供AI進行學習。
那如果長時間和智能音箱對話,是不是能讓智能音箱更懂我呢?
答案是很難。一般來說,所有的訓練學習過程,都是在AI算法商一端完成的。算法商會根據(jù)所有用戶的數(shù)據(jù),對AI進行訓練、更新,而非針對某個特定用戶。
所以,要想讓智能音箱聽懂你個人習慣性的語病、倒裝、口頭禪等等,目前的最好辦法,是自己手動錄入,指定它該作出什么反應(yīng)。
雖然智能音箱技術(shù)還沒完全成熟,但在互聯(lián)網(wǎng)巨頭眼中,它卻是必須攻下來的陣地。 2019年的中國智能音箱市場經(jīng)歷了爆發(fā)式增長,總出貨量4589萬臺,同比增長109.7%。其中阿里的天貓精靈,百度的小度音箱,小米的小愛音箱,三家占據(jù)了9成以上市場份額。
智能音箱在出貨量上漲的同時卻沒給巨頭們帶來利潤。2019年,百度副總裁景鯤向媒體表示,百度是通過補貼維持了小度音箱的低價。而另據(jù)業(yè)內(nèi)人士估算,每賣一臺小愛音箱,小米只賺1塊錢。
巨頭們的底層邏輯是,智能音箱很有可能成為未來家庭的控制中心,所以要用現(xiàn)在的低價策略換取未來物聯(lián)網(wǎng)時代的入場券。這樣的策略確實能帶來銷量的增加,但切實解決用戶的痛點才能保證產(chǎn)品使用率。
為了提高智能音箱在用戶生活中的不可替代性,廠商都在費盡心思給智能音箱增加新的功能,因為誰也不想看到當物聯(lián)網(wǎng)時代真正到來的時候,用戶家中的智能音箱上已經(jīng)落滿了厚厚的灰塵。