新戰略機器人網訊:美國的《福布斯》報道了人工智能初創公司Lattice.io 被蘋果收購的消息,蘋果隨后官方確認了這次收購。此后,又有媒體爆料收購的金額為2億美元,收購在數周前已經完成,Lattice.io的20名員工加入蘋果。
(圖片來源:Lattice.io公司主頁)
Lattice.io
雖然成立時間不長,但是創始人大有來頭。Mike Cafarella是密歇根大學的助理教授,也是著名的數據庫系統領域的專家,曾與別人共同設計了Hadoop 系統。而另一位創始人 Christopher Re教授來自斯坦福大學,此前曾構建了機器學習系統DeepDive。Lattice公司的成立正是為了實現 DeepDive 系統的商業化。
Lattice 的投資方包括谷歌風險資本(GV)和 Madrona 等機構。簡單地來說,Lattice.io可以從大量從未被仔細研究過的暗數據(dark data)中挖掘出有價值的信息。雖然每天傳感器、互聯網和移動設備等都會產生大量的數據,但是這些數據往往雜亂無章,缺乏結構。
舉個例子,全世界的學者都會發表成千上萬篇論文,但這些論文中既有統計數據,又有圖片數據、引用數據、文本數據等等內容,非常難以實現結構化。Lattice.io 的 DeepDive 系統正是可以從這樣一些雜亂無章的數據中提取出結構化的信息,儲存在結構化的數據庫里。
目前,DeepDive已經在很多領域產生應用,比如對抗人口販賣活動。根據國際刑警組織的分析,人口販賣已經成為僅次于毒品和武器走私的全球第三大非法貿易。販賣的人口主要在工廠中從事強迫性的苦力工作或者被迫成為性工作者,人口販子可以從相關的流程中獲得分成。作為商業流程中不可或缺的一環,販賣人口的廣告也總會在網上露出一些痕跡。
于是,Lattice參與了美國國防部領導的 Memex 項目,負責從網頁求職廣告數據中抽取出與人口販賣相關的結構化數據。互聯網上有海量的廣告網頁,可以理解成一個個HTML 文件,里面既有 HTML 的標簽,也有非結構化的文本內容。項目的其他參與者從網上找到了3000萬條和性服務有關的廣告。
雖然不同的廣告形式、內容、風格都不相同。不過通過DeepDive系統,可以把這些廣告所含的信息整理成表,包括不同的列,比如:廣告的鏈接、廣告中聯系人的姓名和電話號碼、工作地點,以及工資等。這樣,網絡廣告數據就變成了一張可以存儲在SQL 甚至 Excel 中的表格。
圖丨DeepDive的人口販賣跟蹤系統(圖片來源:DeepDive主頁)
在賦予了數據結構后,數據分析師就可以利用這些表格進行有目的的數據分析工作,比如,回答了以下幾個問題:如何判斷某個工作廣告是否面向被販賣的人口?如何了解人口販賣組織的內部結構?如何幫助執法者找到危害最大的人口販賣集團,解救處境最危險的受害者?
因為有了DeepDive,復雜的分析性工作變成了簡答的數據庫查詢任務。
例如,人口販子經常移動受害者,保持對他們的控制。所以如果求職者經常變換工作地點,說明他們更有可能被人控制。
此外,沒有被販賣的性工作者存在經濟上的理性,會提出合理的價格并規避風險加大的行為。如果一個求職個體要求非市場化的價格或提供非正常性的服務,就應該引起執法者的注意。
然而,每個季度都能賣出幾千萬臺手機的蘋果公司顯然不能忽視用戶數據帶來的巨大紅利。早先收購的人工智能公司往往被認為有非常具體的產品整合目的,尤其是相關的語音分析技術可被用來增強Siri系統。
但對于 Lattice 的這次收購,無疑可能將在更大的尺度上幫助蘋果整合并分析收集到的各種數據。
毫無疑問,手機作為一個多媒體終端,獲取的數據會非常雜亂多樣,可能包括用戶的位置數據、App使用記錄、文字、圖片、視頻等等。如果能從這么多非結構化的信息中抽取出數據整理成表格,有可能將蘋果的數據分析水平提升一個層次。
此外,DeepDive在醫療領域也有應用。如果向系統輸入大量生物醫學領域的論文數據,系統就會自動提取論文中提及的疾并基因、表型形狀等關鍵詞,還能從論文中挖掘出藥物和身體分子相互作用的關系。考慮到蘋果長期以來在醫療領域的布局,DeepDive的這些功能也有可能派上用常。