語音識別技術并不是一項新興的技術,并且技術門檻也不算太高。物聯網市場潛力巨大應用眾多,在繁多的應用中智能家居或許能優先落地。不過,除了物聯網標準和觀念阻礙智能家居的發展,手機作為目前首要的入口也大大影響了體驗。語音識別并不是一項新興的技術,但在智能家居甚至人工智能領域或許能大展身手
語音交互應該做什么?
王硯峰認為,語音落地的產品,首先不應該是所謂的“中控”,因為“中控”不是具體的產品;也不是所謂“機器人”,因為目前的助手機器人不能幫人們解決任何實際需求和問題;他表示,“任何夸大人工智能在客廳產品中作用的行為都是耍流氓。
王硯峰對客廳中的語音應用提出了兩個標準:好產品和豐富的內容。他表示比如亞馬遜Echo就是好產品,首先它本身是一個好的音箱,并且適應美國家庭用戶的消費文化和習慣,那在美國就屬于好的產品。
語音要在好產品上產生價值,就需要豐富的消費內容資源。僅僅作為控制器的語音對設備帶來的增值不大,而當涉及內容查詢以及更多交互時,才是語音最有價值的使用場景,“語音識別做耳朵,語義理解是大腦,智能家居上要讓語音有自然交互,需要更靈敏的耳朵以及更聰明的大腦。”王硯峰指出。
怎么讓語音交互做的更好?
如何讓語音交互做的更好?王硯峰認為要訓練語音識別這一“更靈敏的耳朵”,需要大規模的優質語音訓練數據和深度學習的技術能力積累,而搜狗在這一點上有著巨大的優勢。據他介紹,搜狗擁有中國互聯網上最大的語音語料:作為國內第一大語音輸入應用,搜狗輸入法每天語音輸入頻次達到1.4億次,產生11.7萬小時的語料規模,比當前國內任何語音技術團隊使用的訓練語料都要大。另一方面,深度學習的技術不斷推動語音識別錯誤率的下降。從2013年開始,借助深度神經網絡和海量用戶數據,搜狗輸入法的線上錯誤率在過去幾年中累積下降了超過60%。
借助語料數據的“燃料”和深度學習的“發動機”,目前搜狗輸入法語音識別準確率已超過97%。對于以當前技術水平無法實現的剩下的3%,王硯峰指出,“這叫語音識別最后一公里問題”。他隨后介紹了搜狗輸入法今年推出了語音修改功能,借助自身的詞庫、拆字庫和用戶語料,以及知識圖譜的支持,如今用戶錯誤率已經降低了80%,有效解決了語音識別“最后一公里”的問題。
而對于更聰明的“大腦”,王硯峰表示,傳統的通用語音助手不如場景化的專用語音交互更具實用性。他指出,通用語音助手難以解決用戶多種多樣的問題,因而面臨使用體驗較差、屢遭用戶詬病的窘境;而搜狗通過借助多輪對話、技術圖譜等實現技術能力提升,并將使用場景明確化以降低問題難度,“對話能力、知識圖譜跟具體的場景結合起來,語音交互的處理能力、智能性、實用性就可以好很多。”
對于智能家居產品來說語音交互應當能從本質上實現智能家居的讓生活更簡便的愿景。對消費者來說,有一天能夠通過語音而不是無盡的app和遙控器實現對智能家居產品的操作,那將是一件多么美好的事。想像一下,一句“我覺得現在有點熱,溫度稍微調低點。”便能實現空調的溫度調節,和找到遙控器再通過遙控按鍵將溫度調低,哪種更智能、更方便簡直顯而易見。