我自己在某廠做了兩年語音個人助理,后來自己出來創業,首先就否定了這個方向,或者它的變種(如問答系統、智能音箱、客服機器人、聊天機器人、陪伴機器人等等,各自有軟件和硬件的版本),以下統稱為Chatbot。
爬科技樹不是一朝一夕
我估計中國過去幾年,各種不同名目的對話型“機器人”的公司,從軟件到硬件的,數百家是有的,也許有一千家?有一次,在一個會議上遇到一個公司,想做這個事情,想找一個“領軍人物”來帶,領導十多個人。我想,這個公司可能大大低估了做這個事情的難度:這種“領軍人物”在中國可能不超過20個,也許只有10個?十多個人也難以做出一個工業可用的系統。就是有所謂的領軍人物,有豐富經驗的,想把工程重建,也不是短期可以奏效的。這個東西真的是沒有捷徑。
2012年隨著Siri的發布,有一波中國的copycat,除了幾個大廠的,大部分很快就滅了。過去一兩年隨著深度學習、知識圖譜又起來一波。我認為其中的大部分是炒概念,超出現在的技術能達到的能力,兩三年內就會群滅。
我覺得這個東西,屬于典型的系統集成創新,只適合大廠戰略布局用。大廠做這事,并不在乎場景的冷啟動。而對創業公司,無論是技術鏈條長度,還是商業模式啟動的困難,都是超出一般公司體量的。現在大家都想從問答、個人助理、目標達成的角度來切入。大企業玩玩可以,對小企業,想顛覆,不能走這條路,技術鏈太長,商業模式鏈更長。傳統搜索肯定要被別的取代,但不能是直接拼大廠的長處這樣。
往大了說,我對這一輪人工智能的幾個熱點應用——語音個人助手,問答系統,基于視覺的自動駕駛——都持悲觀態度。我認為這種“準圖靈測試”類產品,都超越了當前的盈利前沿,大規模應用是不現實的。例外是政府(特別是軍方)和某些大公司不計成本地布局,瞄準十年之后。其他群眾吃瓜圍觀就好。
各大廠推出的度秘、小冰、Cortana、Google Now,還有搜狗、京東、騰訊等等各種產品,技術上都各有驚艷之處。未來怎么樣,我也很難現在做出評價。問答系統六個層次:基礎搜索、詞聯想、本體知識庫,短程關系、長程關系、基于上下文的自由問答,現在大家也基本只做到了短程關系,長程關系以上都要靠各種“人工”。爬科技樹,絕非一朝一夕。
科技樹是要爬的。導彈這種大家很容易理解,每一種零件,每一種生產工具,每一種生成工具的機器,缺一種都不行。錢學森學到了導彈的一切,回中國建立這個工業也花了三十年。對于問答系統這種軟件,大家可能不太容易直觀理解,其實也是同樣的,做一個管用的之前要攻克的小問題太多了。就是別人把全套解決方案告訴你了,你都不一定能復制出來,因為還得有一整套的工業體系在后面支撐才行。從知識提取,知識存儲,知識表達,知識檢索,到人機交互、知識庫,不知道多少個小零件要逐一打造。所以軟件產業也和其他工業一樣,要老老實實爬科技樹。
Siri的創始人80年代就是Lisp機器的創業者。大家只關注到國防部和Siri那部分淵源(美國政府在CALO上投了1.5億美元。Siri獨立后,風投又投了2400萬。蘋果花了大概1.5-2.5億美元買Siri。這個買賣真是合算),哪里想到它成立前的二十多年,它的創始人就把知識表達的坑全趟了一遍了。所以世界上沒有無緣無故的成功,也沒有捷徑。
一些坑
機器善于做短程關系的查找(lookup),一層,罕見的情況下可以做兩層。長程關系的發現(discovery)是機器做不好的,只能由人來寫,最后變成規則機器執行。那些Siri里有趣的回答,都是人寫的,和機器智能無關。
問答系統的現在逐漸從基于知識庫的,發展到基于檢索的,或者是從基于規則的,發展到基于數據的。但QA這事,至少目前,不是說數據足夠多就行。特別是,數據再多,其中高質量數據(特別是結構化語義數據)有多少。實戰一下就知道,靠統計機器學習來挖掘高質量數據,難度太大了,完全不實用。對問題和答案都需要NLP,其間檢索和排序算法都是新的課題,需要多種方法的綜合。
各種語音交互加攝像頭識別產品,過去以app的形式承載,一直沒有抓住用戶的痛點,沒有進入主流(除了被強推的siri)。所以最近兩年,廠商開始試圖用物理硬件來跑這些app,套個人形的塑料殼稱為“機器人”。應用也逐漸細分,如兒童、戀愛、健康、娛樂等等。這些都是有益的嘗試,但是還是忽悠居多。
特別是最近的一些“智能”玩具機器人(兒童機器人、陪伴機器人),基本看不懂。我買了個1000塊的某某兒童對話機器人來玩,頭5分鐘大家都很興奮,然后就沒有然后了。關鍵連開關都沒有,又蠢又停不下來。然后給我們COO拿回家給4歲的兒子玩,基本沒法用,錯得驢唇不對馬嘴。強烈懷疑兒童陪伴、聽歌、故事機器人現階段實用了。后來又玩了幾個市面上能買到的問答系統硬件。得到的結論是為時尚早,問答系統難以實用。
從外觀來征服用戶的,也是一條路。工業設計、硅膠科技的方法都有……看起來好看其實蠻重要的,有利于user acquisition。當然user retention就不夠了,那還是要真本事。
在我看來,聊天機器人、個人助手這些東西的場景絕不是智能對話,不是智能對話,不是智能對話(重要的事情說三遍)。聊天機器人往問答系統的方向做本身就錯了。問答系統實用化根本不可能。聊天機器人的定位應該是自動化,就醬。
我想,做語義技術的應用第一重要的是盈利,而不是擴大市場份額。要壟斷一個小市場,競爭對手還不夠強大,市場小到巨頭們無利可圖。語義搜索,一定要走K策略,深挖領域知識,而不是推出一個大而全,大而無用的知識庫、問答系統、個人助手、搜索引擎blah blah。歷史上那些走R策略的語義搜索都活不長。一些垂直的客服系統可能是有用的。我沒做過那樣的系統,所以也不知道其中的坑在哪里。
不僅技術上有無數的坑,要在工業界搞好一個問答的團隊,那是真心不容易! 就是在IBM, 說服上層領導就花了好幾年。而且攤子一大,各種山頭光內耗就能搞死。另外,問答系統是最接近圖靈測試的,如何巧妙地應對來自上面的各種不切實際的靈感,是多考驗負責人的情商和智商啊。
SIRI的一些回顧
因為工作的關系,從2010年開始就在關注Siri。2014年的時候把過去幾年關于Siri的微博匯總了一下,大概有一百條,全文見《Siri有關的微博》。兩個短篇見《語義網的公司(6)Siri》《SIRI的貢獻和價值》。也請參考以前為@好東西傳送門 做的《關于問答系統博文的目錄貼》。Apple的Siri專利,長,但是對于理解語義網技術如何在終端用戶產品中運用,很值得一讀。
凡是抄siri而大談語音的,都是還沒入門的(2013)。
Siri之類的系統,核心是模板系統和結構化數據庫(as of 2012)。自然語言處理都是輔助的,真正提高F1分數的還是規則,模板這些“低級”技術。數據的質量和覆蓋率也極其重要。現在看語音界面超前了,因為語音極大提高了人們對智能的期望。而且語音對環境和口音要求太高。光口音這一點不知趕走多少用戶。
Siri之父Adam Cheyer和Steve Jobs在語音界面這一點上曾經有分歧。關于Siri的早期(還沒有被Apple收購之前)的一些設 計理念,參Adam Cheyer早年在Ontolog 上的兩個談話:Ontology Management in CALO, a Cognitive Assistant that Learns and Organizes ,和 Siri: An Ontology-driven Application for the Masses。后來的分歧,見【Siri之父Adam Cheyer:為你講述Siri的前世今生】,里面說,Adam回憶起早期的Siri的時候,也說,“最開始的時候,Siri是沒有聲音的, 只會以文本形式推送答案,這樣結果是視覺化的,也更方便人們瀏覽。使用語音是Steve Jobs的提議,盡管我反對但是他一直堅持”。Cheyer最后只好走人,去創立了Viv,2016年被三星收購——雖然Viv也被標簽為“AI語音助手”。
我認為當初Cheyer是對的,Jobs是錯的。語音極大提高了用戶的期望,極大提高了系統的誤差。當年Adam Cheyer等對Siri的定位還是對的,就是個數據集成工具。被蘋果買后Jobs強行要改成語音助手,Cheyer只好出走。現在可以看清楚,Jobs的定位違反技術規律。和當年的愛瘋天線門一樣,是Jobs以他天才的現實扭曲力場(Reality Distortion Field),試圖扭曲技術規律的行為。遺憾的是,電磁波定律無法被扭曲,人工智能的的規律也無法被扭曲。
2012年還在研究語音助手的時候,曾拿Siri來反向工程,問各種結構的句子,反推她的模板系統到底是什么樣子。結果發現她有些系統性的不能回答的結構,顯然是沒有對應的模板。最有意思的有人發現問“叫我老婆回家吃飯”,Siri回答“從現在開始叫你‘老婆回家吃飯’”。
(后來拿這套方法分析了其他一些知名的語音助手,結果也很有趣)
當然后來Siri也在演進。2013年iOS7上的siri,就有兩點新東西。一是和Bing集成。很可能看中了satori知識圖譜。短期內借助外力開發智能問答引擎,很合理。二是在宣傳中突出語音對設備的控制和簡單的檢索,而非問答式的個人助手。Siri老團隊的核心當時都已經走了。
近年的事情我就不清楚了。
時機問題和定位問題
The key is timing and positioning
遲早有一天,各種聊天機器人會以軟件和硬件的形式進入我們的生活。但是重要的是路徑設計,而非預期的愿景;市場的一步步的相對優勢的爭取,而非平臺優勢的爭取。
True Knowledge(產品后來改名Evi)曾經是一家非常優秀的公司,它的知識庫是可以和Google Knowledge Graph媲美的好東西。他家的自然語言理解模板也是值錢的。它可以說是起了大早,趕了個晚集的典型。2005年就開始搞知識圖譜,問答系統也做到了世界領先,但是就是一直沒搞好商業化,最后以地板價(2600萬美元)賣給了Amazon。這個公司不懂得包裝自己,好好弄弄說值10億美元也是沒有問題的。本來它可以更開放,以更積極的態度和上下游企業合作。它并沒有必要成為Siri的直接競爭對手。它應該更快地進入美國本地服務市場——現在的幾個競爭對手本來都比它擁有技術晚。可惜它被執行得更象一個研究項目而不是關心市場?,F在Amazon的Echo音箱能做好,就有True Knowledge十幾年的積累在里面。
我認為,早在2012年,直接做語音助手的黃金期已過,還沒推出產品的公司就應該轉進了。其實各種垂直領域都不錯,用戶體驗會更好。語音不語音不是核心問題,Siri能做好的最后必然是擁有數據的公司。制造設備的公司會有幻覺,以為自己有用戶數據,其實此數據非彼數據。自然語言理解雖然是語義搜索的重要輔助工具,但是當前階段還不應是Value Proposition或者Key Technology。淺而高質量的數據關系才是。過于復雜的理解技術,不管是查詢問題理解還是語義關系提取,現在都不足以大規模工業化。從這個角度,我認為Siri或者其他類似的產品,針對主流市場是危險的。
Tom Gruber(Siri CTO,我們語義網界的老前輩)曾說: the killer app for semantic technology is your life (online) 。這句話有好幾層意思,背后代表著一整套哲學、方法論和技術路線。越實踐,越覺得機會無窮。他也提出了intelligence at interface的一套理論,見他在SemTech08上的演講,很有意思。但是我依然覺得 Siri 在timing上稍微早了一點。結構化數據的豐富程度還不足以支持 Siri 的大規模使用。模版系統的產生方式還不夠規?;;ANLP的精度還有待提高。類似產品不宜立即投放大眾市場,應該再等幾年的。
2012年,對Siri這類產品,輿論界曾有很高的預期。典型如【在血刃Google的路上,Siri會先被蘋果給玩死么?】這個文章的作者低估了Siri作為任務引擎的困難程度。他也應該深入想一想,為什么原來的 Siri Assistant 比后來集成的Siri強大但是太慢?為什么集成Siri需要兩年?這背后的結構化數據,服務集成,語義推理,語義理解,常識知識,要涵蓋日常生活的方方面面,甚至不是蘋果一家公司兩三年能搞定的。
Siri的CEO Dag Kittlaus有一篇文章Siri Is Only The Beginning,看起來很像是科學美國人上2001年的那篇語義網奠基文章 The Semantic Web。 在十幾年里我們低估了語義網的實現難度,當年對Siri的興奮也許同樣低估了問題的復雜性?在2012年我估計,這一天會到來,但恐怕不是5年內?,F在到了2017年,可以認為當初的保守估計是合理的?;蛉缥恼吕镎f,“when our kids are our age”,20-30年吧。
未來在哪里?
我不知道。我離開這個領域前沿也有三年了,所以知識也是落后的,很多黑科技可能我是不知道的。
(我唯一可以確定的,就是這個黑科技不是深度學習,肯定不是。)
大量的試錯總是好的?,F在市場上既然有數百個嘗試者,最后總會有一些走出來的,其他的至少也為這個市場鍛煉了人才。
作為創業團隊,最好先做整個技術鏈條里一個組件的工作,不要試圖上來整一個問答系統的全周期。即使是對一個垂直領域,這都是困難的事情。根據不同的團隊構成,可以從數據庫建造開始,或者可視化開始,或者NLP API,甚至人工的咨詢服務。總之,整個大鏈條十幾個大環節,先切一個,建立穩固的根據地,再循序漸進。
未必要在語音這條線上吊死。視覺的并行性和(sort of)可隨機存取性是最寶貴的注意力資源。語音在并行性上有先天不足。純文本也是。長遠看,個人助理必然要更多使用視覺元素。狗尾草(Gowild)走AR(增強現實)路線,我覺得很有意思,這條路未來大有前景。
搜索引擎勢必要智能化,勢必要更多利用結構化數據(也就是知識圖譜)。這有兩個大方向,一是變成問答系統,依賴自然語言處理走硬AI,二是變成探索引擎,依賴人機交互。我以為第一條路是難以走通的,試圖模擬人的智能,技術鏈條太長短期內不可能解決實際問題。第二條路才是現階段可行的方法,交互式展示半結構化數據,利用人的智能彌補機器的不足。
也不能迷信垂直領域,比如金融。我不但不看好通用域問答系統,也不看好大部分的垂直領域問答系統,因為人的愚蠢是不分領域的。除非該垂直領域是小眾的。具體的以后另專文說吧,這里篇幅太短說不清楚。
不過AI沒有禁區,什么意外都有的。我也希望自己說的這些都被打臉。
文因互聯CEO鮑捷:做聊天機器人有哪些坑?
發布時間: 2017-02-14 09:02:27 來源:
核心提示: 我自己在某廠做了兩年語音個人助理,后來自己出來創業,首先就否定了這個方向,或者它的變種(如問答系統、智能音箱、客服機器人、聊天機器人、陪伴機器人等等,各自有軟件和硬件的版本),以下統稱為Chatbot。
【免責聲明】所刊原創內容之本文僅代表作者本人觀點,與新戰略機器人網無關。新戰略機器人網站對文中陳述、觀點判斷保持中立。本網轉載自其它媒體的信息,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責。
【版權聲明】凡本網注明“來源:xzl機器人”的所有作品,著作權屬于新戰略機器人網站所有,未經本站之同意或授權,任何人不得以任何形式重制、轉載、散布、引用、變更、播送或出版該內容之全部或局部,亦不得有其他任何違反本站著作權之行為。違反上述聲明者,本網將追究其相關法律責任。轉載、散布、引用須注明原文來源。
來源:
責任編輯:admin