談話人:楊志宏 視覺求索公眾號編輯朱松純 加州大學洛杉磯分校UCLA統計學和計算機科學教授
時間: 2016年10月
楊: 朱教授,你在計算機視覺領域耕耘20余年,獲得很多獎項, 是很資深的研究人員。近年來你又涉足認知科學、機器人和人工智能。受 《視覺求索公眾號》編輯部委托,我想與你探討一下計算機視覺的起源,這個學科是什么時候創建的, 有哪些創始和代表人物。兼談一下目前熱門的人工智能。
朱: 好, 我們首先談一下為什么需要討論這個問題。 然后, 再來探討一下計算機視覺的三個重要人物David Marr, King-Sun Fu, Ulf Grenander以及他們的學術思想。我認為他們是這個領域的主要創始人、或者叫有重要貢獻的奠基人物。
第一節: 為什么要追溯計算機視覺的源頭, 這有什么現實意義?
中國有句很有名的話:“一個民族如果忘記了歷史,她也注定將失去未來。” 我認為這句話對一個學科來講,同樣發人深省。我們先來看看現實的狀況吧。
首先,假設你當前是一個剛剛進入計算機視覺領域的研究生,很快你會有一種錯覺,覺得這個領域好像就是5年前誕生的。 跟蹤最新發表的視覺的論文,很少有文章能夠引用到5年之前的文獻,大部分文獻只是2-3年前的,甚至是1年之內的。現在的信息交換比較快,大家都在比一些 Benchmarks,把結果掛到arXiv 網上發布。 很少有一些認真的討論追溯到10年前,20年前, 或30年前的一些論文,提及當時的一些思想和框架性的東西。現在大家都用同樣的方法,只是比拼,你昨天是18.3%的記錄(錯誤率),我今天搞到17.9%了。大家都相當短視,那么研究生畢業以后變成了博士,可能也會帶學生做研究,他只知道這幾年的歷史和流行的方法的話,怎么可能去傳承這個學科,讓其長期健康發展呢?特別是等當前這一波方法退潮之后,這批人就慢慢失去了根基和源創力。這是一個客觀的現象。
其次,還有一個現象是,隨著視覺與機器學習結合,再混合到人工智能的這么一個社會關注度很高的領域去以后,目前各種工業界,資本、投資界都往這里面來炒作。所以,你可以在互聯網上看到各種推送的文字,什么這個大師,那個什么牛人、達人說得有聲有色,一大堆封號。中國是有出“大師”的肥沃的土壤的,特別是在這個萬眾創新、浮躁的年代。 這些文字在混淆公眾的視聽。也有的是一些中國的研究人員、研究生, 半懂不懂,寫出來一些, 某某梳理機器學習、神經網絡和人工智能的歷史大事。說得神乎其神。我的大學同學把這種帖子轉發給我,讓我擔憂。
楊:這大多是以學術的名義寫的軟文,看起來像學術文章,實際上就是帶廣告性質的,一般都是說創投、創業公司里的人,帶著資本的目的,帶商業推廣性質的。
朱: 我甚至不排除有些教授,比如與硅谷結合很緊密的、在IT公司或者風投公司兼職的,有意識地參與、引領這種炒作。
這對我們的年輕學生其實是很致命的,因為他們不了解這背后的動機, 缺乏免疫力。而且現在年輕人和公眾都依賴短平快的社交媒體,很少去讀專業文獻。當公眾的思想被這些文字占領了,得出錯誤的社會性的共識,變成了 false common sense, 對整個社會, 甚至對學術界,都會產生長久的負面沖擊。
這就形成了新時代的皇帝的新裝。我們需要對這種現象發聲, 做一些嚴肅的探討。所以,正本清源有著重要的現實意義。
第二節:計算機視覺和人工智能、機器學習的關系
楊:談到這里,我想先問一下計算機視覺和人工智能是什么關系?還有機器學習這三個東西。
朱:人工智能是在60年代中后期起步的。一直到80年代,翻開它的教科書,就是一些啟發式搜索,研究最多的是下棋, 從國際象棋一直到最近的圍棋,都是比較抽象的表達。棋盤的位置是有限的、下棋的動作也是有限的, 沒有感知和動作執行的不確定性。 所有的問題都變成一個圖搜索的問題,教科書上甚至出現了一個通用圖搜索算法號稱可以解決任何人工智能問題。當時視覺問題還沒引起大家重視。我這里有一份1966 年7月 的 MIT AI 實驗室的第100號報告(備忘錄memo 100),很短,題目叫做“The Summer Vision Project”。這個備忘錄的基本意思就是暑假的時候找幾個學生構造一個視覺系統。他們當時可能就覺得這個問題基本上是不需要做什么研究的。所以你就一個暑假,幾個人一起寫個程序,就把它干掉算了。現在說起來,當然是個笑話。
人的大腦皮層的活動, 大約70%是在處理視覺相關信息。視覺就相當于人腦的大門,其它如聽覺、觸覺、味覺那都是帶寬較窄的通道。視覺相當于八車道的高速, 其它感覺是兩旁的人行道。如果不能處理視覺信息的話,整個人工智能系統是個空架子,只能做符號推理,比如下棋、定理證明, 沒法進入現實世界。所以你剛才問到的人工智能和計算機視覺的關系,視覺,它相當于說芝麻開門。大門就在這里面,這個門打不開, 就沒法研究真實世界的人工智能。
到80年代,人工智能, 連帶機器人研究就跌入了低谷, 所謂的冬天。那個時候,很多實驗室都改名字了, 因為拿不到經費了。 客觀來說,80年代, 一個微型計算機的它的內存只有640K字節,還不到一兆(1MB一百萬字節),我們現在一張圖像,隨便就是幾個兆的大小,它根本無法讀入一張圖像,還談什么理解呢?等到我做博士論文的時候(1992-1996),我導師把當時哈佛機器人實驗室最好的SUN工作站給我用,也就是32兆字節。我們實驗室花了25萬美元構建了一個圖像采集系統,因為當時沒有數字照相機。可以這么說,一直到90年代中期的時候,我們基本上不具備研究視覺這個問題的硬件條件和數據基礎。只能用一些特征點的對應關系做射影幾何,用一些線條做形狀分析。因為圖像做不了,所以80年代計算機視覺的研究,很大部分是做幾何。
楊:90 年代后,就是數字照相機大量生產了。
朱:在90年代的末期的時候,發生了一個叫做感知器的革命。帶動了大數據和機器學習的蓬勃發展。
楊:那機器學習與計算機視覺的關系呢?
朱:計算機視覺是一個domain, 它有很多問題要研究, 就像物理學。 而機器學習基本是一個方法和工具,就像數學和統計學。 這個名詞的興起應該還是最近的事情, 在我看來,是來自于兩股人馬。 80年代人工智能走入低谷后,迎來了人工神經網絡的一個高潮, 所謂的從符號主義到連接主義的過渡。在中國80年代與氣功、人體科學一起走紅,但這基本是曇花一現。到了90年代初, 退潮之后,就開始搞 NIPS這個會議, 引入統計的方法來做。還有一股就是做模式識別的一些工程人員EECS 背景的。 按道理來說, 這個領域應該叫做 統計學習 (Statistical Learning),因為它的方法都是由概率統計領域拿來的。這些人中的領軍人物很有商業頭腦, 把統計和物理的數理模型, 改名叫做機器, 比如**模型(model)就叫**機(machine),把一些層次模型(hierarchical model)說成是“網”(net)。這樣,搞出了幾個“機”和“網”之后, 這個領域就有了地盤。另一方面,我的那些做統計的同事們也都老實、圖個清靜,不與他們去爭論, 也大多無力去爭。當然,統計學領域也有不少人參與了機器學習的浪潮。簡單說,機器學習中的 “機器”就是統計模型,“學習”就是用數據來擬合模型。 是由做計算機的人搶占了統計人的理論和方法,然后,應用到視覺、語音語言等 domains。 我在計算機和統計兩個系當教授, 看得一清二楚。 這個問題我以后可以專門討論。
這個機器學習的群體在2000年之后,加上大量數據的到來,很快就成長了, 商業上取得很大的成功。機器學習和計算機視覺大概有百分之六七十是重合的。順便說一句,2019年我們兩個領域會在一起在洛杉磯開CVPR 和 ICML年會, 我是CVPR19的大會主席。因為學習搞來搞去,最豐富的數據是在視覺(圖像和視頻)。現在這次機器學習的一些大的動作和工程上的推廣工作,還是從計算機視覺這邊開始的。
楊:謝謝你講述人工智能,計算機視覺和機器學習的關系。下面我們回到本次訪談的主題。剛才說了這個感知器革命是90年代以后,出了很多的數據要處理了。那么為什么馬爾(Marr)在70年代末思考的問題,在面對我們當今處理這個數據的時候, 還有意義?就是說馬爾用了什么方法?什么思路框架?使它有生命力?
朱:好,就回到1975-1980年這個時間段。我們今天的主題是想初步探討一下計算機視覺的起源。我們這個領域也沒有一個統一的教科書來談這個事情。我認為視覺的起源,可以追溯到三個人,David Marr, King-Sun Fu 和Ulf Grenander。這三個人代表三個完全不同的方面,為計算機視覺這個領域奠定了基礎。
楊:好, 我們逐個來介紹吧。
第三節:視覺的開創者之一:David Marr 的學術思想
朱: David Marr 【1945-1980】,中文音譯為馬爾, 他奠定了這個領域叫做Computational Vision計算視覺,這包含了兩個領域: 一個就是計算機視覺(Computer Vision),一個是計算神經學(Computational Neuroscience)。他的工作對認知科學(CognitiveScience)也產生了很深遠的影響,我們計算機視覺CV,第一屆國際會議ICCV 1987年就以David Marr的名字來命名最佳論文獎, 而且一直到2007年之前的20年間, 是CV唯一的獎項和最高的榮譽,兩年一次。認知科學年會 (CogSci)也設有一個 Marr Prize給最佳的學生論文。這三個領域在80-90年代走得很近, 最近十多年交叉越來越少了。就是說,原來都是親戚,表兄弟, 現在很少有人在之間走動了。
Marr 1972年從劍橋大學畢業,博士論文是從理論的角度研究大腦功能,具體來說,是研究的小腦, 主管運動的Cerebellum。1973年受MIT 人工智能實驗室主任Minsky的邀請, 開始是做訪問學者(博士后)。 1977年轉為教職。 可是, 1978年冬診斷得了急性白血病。1980年轉為正教授不久就去世了, 時年35歲。他在得知來日無多后,就趕緊整理了一本書,就叫 “Vision:A Computational Investigation into the HumanRepresentation and Processing of Visual Information”, 《視覺:從計算的視角研究人的視覺信息表達與處理》。他去世后由學生和同事修訂,1982年出版。
楊:“Vision”2010年再版了,再版了以后在亞馬遜仍然是賣得很好。
朱:它是個經典的東西。我是1989年冬天本科三年級從中科大認知科學實驗室的老師那里,讀到這本書的中文譯本。因為缺乏背景知識,我當時基本讀不懂。因為是中文,每句話都明白,但是一段話就不知道是什么意思了。在過去的20多年中, 我每隔1-2年都會再翻一翻這本書。后來我和同事花了大約8年時間,將他的一些思路轉化成數理模型,比如primal sketch。
楊:這個人生故事是可以拍電影的。
朱:的確。 很多年前我與他的大弟子 Shimon Ullman飯桌上談到這段歷史, 他說當時大家到處找藥,就是救不過來。當年這是一個30多歲正值科學頂峰的、交叉學科的領軍人物。順便說一句, 當年中日友好,1984播放日本電視劇《血疑》, 那是萬人空巷, 感人至深。里面的大島幸子(三口百惠飾)得的就是同樣的病。可惜, 目前計算機視覺這個領域,你如果去問學生的話,他們很多人都沒聽說過David Marr。“喔,想起來了,好像有個Marr獎吧”。可是你去問認知科學、神經科學的人,他們基本上對Marr非常的清楚。這也是我所擔心的, 計算機視覺的發展太工程化、功利化了,逐步脫離了科學的范疇。這是短視和危險的。最近又受到機器學習來的沖擊。我這里順便說一句, Marr 對我的另外一個間接的影響。他1973年來到MIT, 就租住在JayantShah的房子里, Shah 與 Minsky很熟, 他當時是研究代數幾何(Algebraic geometry)的。 而我導師Mumford也是研究代數幾何的, 并獲得1974年的菲爾茲獎。他們兩人很熟,后來在Shah的影響下,Mumford轉入計算機視覺, 他們從提取物體邊緣開始 (boundarydetection),也就是產生了著名的 Mumford-Shah 模型,搞圖像處理的應用數學人員基本都是從這個模型開始做。這是后話。關于這段歷史,我們以后可以展開談。:好, 那么 Marr的學術貢獻是什么呢?
<>朱:在我看來,David Marr對我們這個學科最主要的貢獻有三條。從而基本上可以說,定義了這個學科的格局。第一條,就是說在那個時代,60年代開始的時候大家已經很多人研究視覺神經生理學、心理學問題。也有人做一些邊緣檢測的工作。但是,視覺到底要解決哪些問題?是怎么實現的?大家莫衷一是,談不清楚,那么David Marr的第一個貢獻就是分出了三個層次。他說, 要解決這個問題,可以把它分成計算(其實應該說成是表達)、算法、和實現三層次。首先,在表達的層次,我們問一下這是個什么問題呢?如何把它寫成一個數學問題。任務是什么?輸出是什么?這是獨立于解決問題的方法的。其次,對這個數學問題去求解時,可以選擇不同的算法, 可以并行或者串行。再次,一個算法如何在硬件上實現,可以用CPU,DSP, 或者神經網絡來實現。 很多觀察到的心理學和神經科學的現象都是跟系統硬件有關的東西,比如說人的一些注意機制,記憶力。這些應該從表達層面剔除。這樣, 視覺就可以從純粹的理論、計算的角度來研究了。我們可以參考心理學和神經科學的結論, 但這不是主要的。 打個比方,要造飛機, 可以參考鳥類的結構, 但關鍵還是建立空氣動力學,才能從根本上解釋這個現象, 并創造各種飛行器, 走得更遠。
楊:他這么一說,今天看來好像很自然的可以理解了,但是在當時,可能沒有多少人,是把問題這樣分解的。
!important;">:當時分不開。因為當時站在像神經科學和認知科學角度,是拿一些實驗現象來說事,但是不知道這個現象是在哪一層出現的。
比如神經網絡和目前的深度神經網絡的學習,他們的模型(表達)、算法、和實現的結構三層 是混在一起的。就變成一個特用的計算設備, 算法就是由這個結構來實現的。當它性能不好的時候,到底是因為表達不對,還是算法不對,還是實現不對? 這個不好分析了,目前的神經網絡,或者是機器學習,深度學習,它的本源存在這個問題。
以前我們審稿的時候,會追問論文貢獻是提出了一個新的模型?還是一個新的算法?在哪一個層級上你有貢獻,必須說得清清楚楚。2012年,我作為國際計算機視覺和模式識別年會(CVPR)的大會主席, 就發生一個事件。收到神經網絡和機器學習學派的一個領軍人物 LeCun的抱怨信,他的論文報告了很好的實驗結果, 但是審稿的三個人都認為論文說不清楚到底為什么有這個結果, 就拒稿。他一氣之下就說再也不給CVPR投稿了,把審稿意見掛在網上以示抗議。2012 年是個轉折點。
現在呢?隨著深度學習的紅火, 這三層就又混在一塊去了。 一般論文直接就報告結果, 一堆表格、曲線圖。我就是這么做,然后再這么做,我在某些個數據集上提高了兩個百分點,那就行了。你審稿人也別問我這個東西里面有什么貢獻,哪個節點代表是什么意思,你別問,我也不知道。那算法收斂了嗎?是全局收斂還是一個局部收斂?我也不知道,但是我就提高了兩個百分點。>楊:或者要用多少數據來訓練材料才能夠呢?
楊:明白。
朱:我們現在很多人研究這個智能,比如說分類問題。他都是從谷歌的一些應用,比如搜索圖片、廣告投放,變成分類問題。 從而忽視了更大的本質問題。如果說人工智能往前發展機器人,要從機器人的角度來用視覺的話,那么它就有很多不同的任務。我現在做飯,我在打球,我在欣賞風景,這個時候我看到的東西是完全不一樣的。我怎么樣通過這千千萬萬的任務,而不是簡單一個分類,來驅動我的計算的過程,來找到我的需求,來支持我目前的任務,這是一個巨大的研究的方向。David Marr的思想,到今天,反而意義非常重大,因為大家現在一窩蜂的去搞深度學習,把這些基本東西給忘掉了。但是這才是人工智能和機器人視覺的長遠發展方向。
我前兩年給過幾個談話,說研究視覺要從一個agent(執行者)的角度,帶著任務進來的這么一個人或機器人,主動地去激發視覺。
目前的計算機視覺的研究還有一大部分是由視頻監控的應用來驅動的,比如說我檢測一些異常現象,看這個人是男還是女?那這也是一種被動的,就是說它只是在看,沒有去做。要去做的話,就涉及到因果關系和更多的不確定性。所以現在的研究生覺得,他整天在做機器學習, 就在調參數,就在跟別人比拼百分之幾的性能。 一些公司的研究所就報道, 他們在某某問題(數據集)上國際領先了,排名第一了。他們自己也覺得這個研究沒多少意思。那是因為他們沒有接觸到這些基本的問題上來。
楊:他們可能還沒有發現這個問題本身是多么有趣。
朱:因為作為一個科學來發展的話,那它就是要認認真真的來做,把這個理清楚。當前的火熱來源于工業界, 工業界沒有多少耐心資助他們的研究人員去做科學研究,大家很現實。 那么,David Marr先談這么多好不好?以后我們可能還會繼續深入談的。>楊:好。那我們第二個人就談一下傅京孫。
>第四節:視覺的開創者之二:傅京孫(King-Sun Fu)的學術思想