百度吳恩達:不必擔心機器人會掌控世界
來源:新浪科技
1月20日,未來論壇創立大會在北京成功舉行。百度首席科學家吳恩達在論壇上發表了題為“人工智能與深度學習”的主題演講,并在會后接受了新浪科技的采訪。
吳恩達提到,“我們最近決定看看,以神經網絡取代傳統語音識別軟件。世界走向移動設備,想象一下我們圍繞語音界面重新設計移動產品——語音將會推動手機的革命。我想要重新設計大家的手機”,這也將改變很多家用電器、可穿戴設備等等,“這些設備有太多界面了,如果用語音識別和設備進行溝通,會更加方便?!?/span>
技術發展帶來深度發展新機會
吳恩達以建造火箭為例,闡述了深度學習越來越火爆的原因。“火箭有兩個部分,第一部分是火箭發射機,是很大的發動機。第二個是燃料,如果發動機小,燃料很多是不可能的,如果發動機很小,燃料很少也不行,燃料燒著燒著就沒了,所以火箭必須要有一個大發動機和很多的燃料。深度學習和這個差不多,我們現在神經網絡就是我們發動機,它推動著AI的發展,燃料就是我們所用的數據,我們現在有這么多的數據,社會數據化給我們提供了大量的數據,這樣輸入到我們發動機中給我們作為燃料?!?/span>
如今,隨著移動互聯網的興起,大家的交流方式慢慢地從文本轉向圖像和視頻,基于此,越來越多的人開始搜索圖像和語言,而通過深度學習,可以幫助人們更好地了解文本和圖像、語音之間的互動關系。
在吳恩達看來,隨著軟件和技術的發展,帶來了新的機會,使得軟件可以通過深度學習來分析數據,從而使得我們擁有更多的數據,使得計算機視覺可以做到之前所無法做到的事情。
目前百度基于深度學習技術的產品已有很多,深度學習技術幫助我們更好地理解語言、圖片和語音,使計算機更好地理解我們的溝通。并希望能通過各種方式去更好地利用這一技術。
其中一個最主要的例子是對對象的識別。你可以讓計算機去“看”一張圖片,并從中識別出對象。在許多知名的評分中,百度獲得了最好的成績。此前一些別的團隊獲得了最好成績,而我們在此基礎上繼續改進。這是通過深度學習技術來實現的。這需要通過建設龐大的神經網絡,輸入大量數據,而百度的GPU技術使其成為了可能。
機器人不會掌控世界
AI快速的發展促成了一些炒作,大家忍不住會想,未來的某一天,計算機或許會成為機器人,掌控整個世界?
吳恩達很嚴肅地表示,他們是會和我們一起創造一個很好的世界,并不會成為邪惡的機器人。因為,大家完全可以利用技術進行預測,技術不斷的改變,神經網絡是非常好的識別工具,還有預測的工具,當你輸入數據的時候它們可以進行預測。
如果我們能夠遠離炒作,AI發展是比較健康的,AI創造的挑戰并不是機器會掌控世界,他很可能會幫助我們替代勞工,我們領導者必須要認真考慮技術,要讓人工智能技術幫助我們替代那些繁雜的勞動。
百度語音識別正取得很好進展
百度的語音識別技術正取得很好的進展,計算機已經保存了大量語音數據,通過訓練神經網絡,從而打造了非常準確的語音識別系統。當前語音識別技術的一大問題在于無法在嘈雜的環境中使用,例如當你在一個很吵的車中開車時,這樣的技術無法很好地提供服務。百度目前擁有嘈雜環境中最優秀的語音識別技術。
至于如何克服語音識別技術研發中的困難,則需要做兩方面的工作。一方面在于規模,百度需要研究如何建設規模很大的網絡。因此百度擁有著很強大的GPU團隊,并開發了強大的GPU軟件。另一方面,百度需要找到足夠多的數據來作為這一大型神經網絡的輸入內容。
在百度工作令人興奮
吳恩達已經在百度工作將近一年的時間,也不可避免地接觸到公司以及團隊的成員。這也是一個不可回避的問題。
當然,吳恩達在提到這個問題的時候非常愉快,因為在他看來,在百度工作令人興奮而愉快。公司非常敏捷,動作很快,所以可以創造出一些東西,而且與研發團隊的共事也讓人感到興奮。
他還以語音識別來舉例說明。百度有3個實驗室,這3個實驗室之間經常共同討論,相互提供專業指導。許多人會相互拜訪、相互溝通。以往當語音技術宣布突破時,美國的團隊出現進展,北京的團隊就會借鑒來自英語環境的經驗,并轉而在中文環境中嘗試。百度是一家統一的公司,大家努力作為同一個團隊、同一家公司來行動。
百度吳恩達:圖像和音視頻搜索是人工智能新方向
日前,未來論壇創立大會在北京舉行。百度公司首席科學家吳恩達發表了題為《機器學習與AI人工智能》的主題演講。在他看來,通過移動互聯網的興起,交流方式從文本慢慢轉向圖像和視頻,因此,越來越多的人通過AI就能夠更好的了解這些文本和圖像,以及語言之間的互動關系。以下是吳恩達的演講實錄:
Andrew Ng:在過去幾年中,AI 人工智能和深層次的學習不斷轉變技術,而且給公司創建了巨大的經濟價值,也在更大改進人類和技術獲得的方式。但是關于 AI 人工智能也有非常多的炒作,我今天要做的就是向大家傳達兩個信息,一個,我希望能夠向大家介紹一下 AI 人工智能領域所發生的現象,我希望三十年之后,大家能夠講述什么是腳踏實地,什么是炒作。其次,如果你是組織的領導人,我希望 30 分鐘之后你能夠有戰略性的思維,思考一下最近的歷史和 AI 近期的未來,這樣就能夠更好的領導團隊做出更好的關于 AI 和技術的決策,因為 AI 和互聯網正在改變著我們的生活和我們的經濟結構。
過去十五年間,我們現在都有一個關于人工智能正循環的理念,我們認為它能夠帶來一個很好的產品,服務很多的用戶,有著很多的用戶就能夠收集很多的數據,用戶數據、服務數據,有很多數據就能夠使我們使用 AI 繼續改善我們的產品。但是這張圖的問題就在于,直到近期 AI 這一步其實做的都不好,傳統來說,即便是你加大投入,但是它的性能也不會提高。我們現在對 AI 和深度學習的理解,只要你現在衡量 AI 的技術等等,他的 AI 性能會越來越高,這樣就能夠減少它的成本,提高它的性能,在大數據的時代這些深度學習的算法比傳統 AI 算法要更好,因為他能夠逐漸提高 AI 的性能,因此歷史上第一次我們能夠在這個圖中完成 AI 的環節,得到數據,得到很好的產品,接觸大量的用戶。
大多數互聯網信息都是基于文本的,通過移動互聯網的興起,我們認為這種交流方式同文本慢慢轉向圖像和視頻,所以在百度我們看到越來越多的人搜索圖像和語言,我認為通過 AI 我們就能夠更好的了解這些文本和圖像,以及語言之間的互動關系。我現在想給大家介紹一些例子,向大家解釋一下 AI 是如何使用今天的互聯網。
AI如何使用今天的互聯網
百度這樣的公司在文本上做了很多工作,我們先從圖像開始。七年前我問我斯坦福的學習,讓他們寫一個算法,在圖像中找到杯子。七年前當時最好的算法,他們使用了最好的算法,這就是結果,在各個地方都找到了杯子,這是錯誤的。對于你和我來說,作為人類來說,很難理解計算機為什么無法識別出這個杯子,為什么計算機看不到我們能看到的東西?計算機很難做到這一點,我們詳細的看一看,我們眼中看到的是杯子,但是計算機看到的是很多的像素,所以計算機的作用是看這些數字來考驗你這些數字代表的是什么,代表的是這個杯子的口,看起來這是一個計算機的問題,六、七年前如果讓機器來解決這些問題是非常困難的。
五年前發生了變化,興起了深度學習神經網絡的技術,我們當時受到了人類大腦運作的啟發,開始創造軟件,模擬這些神經元的工作方式。深度學習是什么意思?我們建立這些神經網絡,深度模擬我們大腦中神經源信息傳統的路徑和方式。在 AI 中有很多炒作,這些炒作的原因之一,很多人說這句話,深度學習推動科技發展,這句簡簡單單的話,這句口號都對 AI 進行炒作。
在午餐的時候我跟饒毅進行交談,他是北大的生命科學家,我們當時都感嘆,今天我們其實都不了解人的大腦是如何工作的,所以我們的確無法來準確的模擬人類的大腦。我們深度學習的軟件雖然模擬人類的大腦,但是他只是大腦,從特別特別淺的方面來模擬大腦運作方式,我們真的不了解大腦是如何運作的。我們通過不準確的模擬就已經啟發了我們新技術的發展,我們使用計算機的視覺,我們給他輸入了很多關于杯子的數據。我們在過去五年間發現這些算法,能夠從數據中學習,學習這個杯子長的是什么樣的,所以我們取得了很長久的進步。今天計算就很容易的識別杯子了。這只是在圖像中找到杯子,這是一個很簡單的任務。我們的視覺系統能夠做的比這多得多,我希望能夠給大家展示這些圖像,問大家您在這些圖像中看到了什么。
如果我想問您為這些圖寫說明,你左邊可能會寫一個黃車在路上行駛,后面是樹林。右面你可以寫是一個起居室,白色的沙發,藍色的地毯,還有下午的斜陽照進了房間。之所以你能夠寫這些說明,你了解這些圖像是什么意思,所以你才能夠寫說明。你能做的是詳細的說明這些圖像的信息,另一方面計算機只能識別杯子,這兩者之間有巨大的差異。這些說明和字幕并不是人寫的,過去幾年中通過軟件的發展,我們現在已經有軟件對這些圖像進行字幕的說明,有這樣的技術對我們帶來了新的機會,使我們軟件通過深度的學習分析數據,使我們有更多的數據,使計算機視覺做到五年前無法做到的事情,在可預見的未來,這樣的軟件使我們能夠更好的了解醫學的圖象。計算,自覺的識別可能是很難的,未來是我們的目標之一,百度眼鏡產品是我們對未來的愿景而已。
{$page$}
為什么深度學習現在火了?
為什么深度學習現在開始火了,現在開始越來越好了,我現在解釋一下深度學習的功能,以及他能為我們帶來什么樣的價值,解釋深度學習是怎樣運作的,為什么越來越好?我現在要做一個比喻,如果你想象一下我們建造火箭,火箭有兩個部分,第一部分是火箭發射機,是很大的發動機。第二個是燃料,如果發動機小,燃料很多是不可能的,如果發動機很小,燃料很少也不行,燃料燒著燒著就沒了,所以火箭必須要有一個大發動機和很多的燃料。深度學習和這個差不多,我們現在神經網絡就是我們發動機,它推動著 AI 的發展,燃料就是我們所用的數據,我們現在有這么多的數據,社會數據化給我們提供了大量的數據,這樣輸入到我們發動機中給我們作為燃料。在 AI 最近發展主要推動力,因為我們能夠建很大的精神網絡。另一方面,百度這樣的公司能夠收集很多的數據,為這些精神網絡輸入數據。我們有一個很大的技術網絡,同時有很大的數據,這樣當然深度學習可以越來越好了。
我今天提到的一件事,我們現在能夠建造很大的神經網絡,五年前,2010 年的時候在學術界用的最大的神經網絡有 1000 萬的連接,于是模擬神經源之間的連接。四年前,2011 年的時候我們在谷歌啟動了一個工程,建造很大的精神網絡,使用 1000 個谷歌的服務器,我們當時的團隊建造神經網絡差不多是原來的十倍大。后來我們發現我們當時的技術其實無法更大,后來我們在其他大學應用了其他的技術,你只用三個服務器就實現了 100 億的連接,在百度我們使用 GPU 新的技術,現在可以建造非常非常大的精神網絡。在 AI 和深度網絡中做出很多的進步,都是因為我們能夠建造巨大的機器,模擬精神網絡,吸收這么多海量的數據,做出預測。
人工智能改變用戶交互的方式是語音
我現在和大家展示一個關于語音識別的例子,解釋一下我剛才做的發動機核燃料的比喻。百度在語音識別方面投入了很多,很多人是使用語音的搜索,對于小孩和老年人,有時候可能打字比較困難,如果你能夠讓他們使用語音搜索,就能夠讓他們使用方便的信息產品和服務。對于我們普通人來說,使用語言識別和語言搜索也是越來越方便的,直到最近基本上所有語音識別都是很簡單的軟件實施,一個方塊里是一個復雜的體系,我們最近決定讓我們看一看產生語音識別的軟件,把它扔掉,取而代之是神經網絡,所以這也就是我們的發動機,因為百度在 GPU 早期投入了很多,所以我們能夠建造很大的火箭發動機。燃料是什么?在語音識別方面,大部分學術人士他們都利用數據,有一些人他們有 300 個小時,最大的是 2000 個小時,最開始我們用了幾個小時的語音數據,后來有幾千個語音的數據,后來建立了合成的語音數據。后來我們一共達到了 10 萬個語音的數據,按照語音識別的標準,實際上這是無法想象的數據量。在百度我們有著非常強大的工具,我們可以利用火箭燃料核火箭引擎,把它們放在一起,這樣我們就有了語音識別更高的性能,而且也有很好開放的 OPI 進行發現。我們不到一個月之前有很好的結果,我覺得人工智能會改變用戶交互的方式就是語音,我們有語音,因為我覺得這里有越來越多互聯網的溝通走向語音的溝通,現在像百度的公司業非常多語音的產品,我們可以利用語音,我覺得整個互聯網經濟和互聯網生態系統只是剛剛開始而已,整個的世界現在都在走向移動的設備,現在還沒有人設計出一個非常好的移動設備輸入的產品,正因為如此,我們現在花很多的時間在小的鍵盤上進行輸字,如果說可以讓語音識別運作非常好,在一個安靜的環境下,它運作還是非常不錯的。
現在出去你在開車,你的手機是放在旁邊的座椅上,沒有人會利用語音的環境,因為在嘈雜環境下語音識別是不行的。如果我們能設計很好的,在嘈雜環境下運作良好的語音技術,我們當然愿意利用語音技術。如果我在開車,我的手機放在旁邊座椅上,我可以跟自己的手機進行溝通,我可以給我妻子發一個短信,我覺得如果有這樣語音技術,這樣會改變我們整個的世界,會改變我們和移動設備互動的方式,我想要重新設計大家的手機,圍繞著一個語音識別的界面進行重新的設計,除了移動的設備之外,我覺得語音也在改變著物聯網,包括很多家用電器、可穿戴設備等等。有一些人知道,現在在物聯網上,在家用電器中有太多的界面,如果我們能夠和我們的設備進行溝通,進行語音識別將會非常好。如果五年前我們說電視的遙控器能夠使你和你的電視進行溝通調頻道,人們覺得你瘋了。我希望可能在我的孩子和孫子輩生命期之內有這樣新的技術,也許有一天我的孫子,或者將來你孫子的孫子會告訴你,他們可以直接和電視進行溝通,調頻。也許有一天你可以和你的微波爐溝通,微波爐會忽略你嗎,它不跟你溝通真的太粗魯,它不禮貌了。我們發現語音在改變著移動世界,也改變著物聯網,而且現在有太多互聯網的溝通,我們與技術的互動太多了,我們的互動都是圍繞著文本的,還有很多的圖像和語音?,F在 AI 人工智能技術還有深入學習,語音技術已經成為最強大的技術,可以幫助我們了解和識別這些數據,我覺得人工智能是有著很大的潛力,能夠改變我們和技術互動的方式,包括百度i和無人駕駛車等等,他有非常大的潛力,改變我們跟技術的互動?;谌绱耍覍@樣的技術感到非常的興奮,我在這個基礎方面開展很多的工作。
當然,這方面也有很多的炒作,我覺得不幸的是,AI 快速的發展現在促成了一些炒作,也許人們會想,某一天計算機會成為好的機器人,會掌控整個的世界,和我們創造一個很好的世界,也許它們不會成為邪惡的機器人,我們現在手機上還有非常多的代碼,我個人看來不會出現炒作中出現的狀況。我們可以利用這些技術進行預測,技術不斷的改變,我們的生活就是圍繞著技術,但是神經網絡你知道是非常好的識別工具,還有預測的工具,當你輸入數據的時候它們可以進行預測,但是我們在 AI 領域中工作的這些人,我們參加會議,我們發表論文,我們對未來的看法和其他一些有著胡思亂想的人之間有很大的區別,我們的看法不一樣。我覺得如果我們能夠遠離炒作,AI 發展是比較健康的,AI 創造的挑戰并不是機器會掌控世界,他很可能會幫助我們替代勞工,我們領導者必須要認真考慮技術,要讓人工智能技術幫助我們替代那些繁雜的勞動。