在 9 月份倫敦舉行的深度學(xué)習(xí)會議上,保持謙卑這個(gè)主題在演講者的發(fā)言中不約而同地出現(xiàn)。
盡管像谷歌這樣的公司還在自信地表示我們已生活在「人工智能時(shí)代」,語音和圖形識別領(lǐng)域的突破不斷出現(xiàn),這些前沿的 AI 研究看來大有希望,但仍前路漫漫。那些像電影中一樣的數(shù)字語音助手并不代表我們已經(jīng)創(chuàng)造了真正的人工智能。研究人員仍面臨著各種問題:缺乏足夠的數(shù)據(jù)來訓(xùn)練深度學(xué)習(xí)系統(tǒng);無法制造同時(shí)處理多項(xiàng)任務(wù)的人工智能;不知道如何讓這些系統(tǒng)運(yùn)轉(zhuǎn)起來。在 2016 年,機(jī)器學(xué)習(xí)領(lǐng)域已經(jīng)出現(xiàn)了高效的工具,但這些工具內(nèi)部機(jī)制難以解釋,訓(xùn)練成本高昂,甚至對于它們的創(chuàng)造者而言也是一個(gè)謎。以下列出了機(jī)器學(xué)習(xí)領(lǐng)域目前面臨的最大挑戰(zhàn):
先收集數(shù)據(jù),然后獲得人工智能
我們都知道,人工智能需要獲取數(shù)據(jù)進(jìn)行訓(xùn)練以感知世界,但往往忽略到底需要多少數(shù)據(jù)?!竷H僅獲取人類用于理解和識別所需的信息量是不夠的,這些系統(tǒng)需要數(shù)百乃至數(shù)千倍這樣的信息以供訓(xùn)練,」Sheffield 大學(xué)的教授,亞馬遜人工智能團(tuán)隊(duì)成員 Neil Lawrence 說道,「縱觀應(yīng)用級深度學(xué)習(xí)的成功案例,你會發(fā)現(xiàn)他們都獲得了海量數(shù)據(jù)。」在語音和圖像識別領(lǐng)域,這種現(xiàn)象尤為明顯。像谷歌和 Facebook 這樣的大型公司可以隨心所欲地截取大量數(shù)據(jù)「例如你在安卓手機(jī)上用于語音搜索的音頻」,這種優(yōu)勢讓他們可以創(chuàng)造更有效的新工具。
Lawrence 認(rèn)為:「數(shù)據(jù)就像工業(yè)革命時(shí)代的煤一樣舉足輕重?!顾?Thomas Newcomen 作為比喻,這位發(fā)明家在 1712 年發(fā)明了蒸汽機(jī)的原型—用煤作燃料,比眾所周知的詹姆斯瓦特早 60 年。Newcomen 的發(fā)明并不完美,相比瓦特的機(jī)器,前者低效而昂貴。人工智能或許也處在這樣一個(gè)時(shí)代,人們還只能努力從礦藏中不斷挖掘礦石作為燃料,抵消機(jī)器本身的缺陷。
Facebook 的開源圖像識別工具
全世界有很多 Newcomen 一樣的發(fā)明者正為他們的機(jī)器學(xué)習(xí)模型而努力,他們也許富有創(chuàng)造力,但沒有大數(shù)據(jù)的幫助,他們的夢想或許難以實(shí)現(xiàn)。像谷歌,F(xiàn)acebook 和微軟這樣的大公司是今天的數(shù)據(jù)煤礦。他們的海量數(shù)據(jù)可以讓他們應(yīng)對仍然低效的機(jī)器學(xué)習(xí)系統(tǒng),同時(shí)改進(jìn)它們。規(guī)模較小的創(chuàng)新企業(yè)或許擁有好的想法,但沒有數(shù)據(jù)的幫助,一切都難以成真。
「在令用戶反感的情況下強(qiáng)制獲取數(shù)據(jù)是不道德的行為?!?/span>
談到如何獲取數(shù)據(jù),這個(gè)行業(yè)面臨著更加尖銳的矛盾。在醫(yī)療領(lǐng)域,假如需要訓(xùn)練一個(gè)使用 X 光照片識別腫瘤的人工智能,數(shù)據(jù)肯定難以獲取。正如 Lawrence 所說的,棘手的問題是「在令用戶反感的情況下強(qiáng)制獲取數(shù)據(jù)是不道德的行為。」(這也是阻礙谷歌和英國國民醫(yī)療服務(wù)機(jī)構(gòu)之間合作的最大原因)。Lawrence 認(rèn)為,最終的解決之道,在于提高深度學(xué)習(xí)系統(tǒng)的效率,讓機(jī)器使用更少的數(shù)據(jù)滿足訓(xùn)練要求。就像三個(gè)世紀(jì)前瓦特所做的一樣,這可能需要另外一個(gè) 60 年。
只有昆蟲需要特化--人工智能必須能夠同時(shí)應(yīng)付多任務(wù)處理
深度學(xué)習(xí)面臨的另一個(gè)重要問題:事實(shí)上,目前的系統(tǒng)幾乎都是一根筋?!府?dāng)它們被訓(xùn)練后,這些而機(jī)器可以高效地執(zhí)行類似識別圖片中的貓、玩雅達(dá)利視頻游戲這樣的任務(wù),」谷歌深度學(xué)習(xí)科學(xué)家 Raia Hadsell 說道,「然而能夠同時(shí)分辨圖像,玩『太空入侵』同時(shí)聽音樂的神經(jīng)網(wǎng)絡(luò),甚至理論方向都還未問世。」
這個(gè)問題比你想象的還要嚴(yán)重,當(dāng)谷歌 DeepMind 在去年 2 月宣布他們的系統(tǒng)可以玩 49 款雅達(dá)利游戲的時(shí)候,這的確是一個(gè)了不起的成就。但每當(dāng)他們的系統(tǒng)通關(guān)一個(gè)游戲后,研究人員都需要重新訓(xùn)練神經(jīng)網(wǎng)絡(luò),好讓它能夠應(yīng)付另一個(gè)。正如 Hadsell 指出的,還沒有人工智能可以同時(shí)學(xué)會多款不同游戲的玩法,對于機(jī)器而言,不同游戲的玩法會互相干擾。你可以讓神經(jīng)網(wǎng)絡(luò)依次學(xué)習(xí),但你會發(fā)現(xiàn)它會忘記在這之前的那款游戲的玩法?!赶胱屓斯ぶ悄苷嬲@得智慧,我們需要讓它能夠?qū)W習(xí)多種任務(wù)的處理。」Hadsell 說道,「然而我們甚至無法讓機(jī)器學(xué)會不同游戲?!?/span>
要解決這個(gè)問題,我們可能會需要一種先進(jìn)神經(jīng)網(wǎng)絡(luò),它可以整合一些不同的深度學(xué)習(xí)系統(tǒng),作為接收者,為它們傳遞信息。在六月公開發(fā)表的一篇論文中,Hadsell 和他的團(tuán)隊(duì)展示了他們的先進(jìn)神經(jīng)網(wǎng)絡(luò)如何適應(yīng)并學(xué)習(xí)玩「Pong」,一種細(xì)節(jié)復(fù)雜的游戲「在其中一關(guān),屏幕顏色會反轉(zhuǎn);在另一關(guān),搖桿的反應(yīng)力度會改變」,他們的先進(jìn)神經(jīng)網(wǎng)絡(luò)比其他同類能夠更快地學(xué)會這款游戲并順利通關(guān)。
這是一種很有前途的方法,而且在最近的一些實(shí)驗(yàn)中它甚至被應(yīng)用到了機(jī)器臂上——將它們的學(xué)習(xí)過程從好幾周加速到了僅僅一天。但是,仍還存在一些顯著的限制,正如 Hadsell 指出的那樣:漸進(jìn)的神經(jīng)網(wǎng)絡(luò)不能簡單地不斷向它們的記憶中加入新任務(wù)。如果你不斷將系統(tǒng)集中到一起,或早或晚你都將會得到一個(gè)「太大以致于難以處理」的模型,她說。而那就是將不同的任務(wù)按本質(zhì)上相似的方式進(jìn)行管理的時(shí)候——創(chuàng)造出一個(gè)人類水平的智能,它能夠?qū)懺?、解微分方程和設(shè)計(jì)一款完成不同的椅子。
只有你能展示你的工作方式的時(shí)候才是真正的智能
另一個(gè)重大的挑戰(zhàn)是理解人工智能是如何得出它們的結(jié)論的。神經(jīng)網(wǎng)絡(luò)通常對觀察者來說是難以理解的。盡管我們知道它們是如何創(chuàng)建的和輸入它們的信息,但它們得出特定決策的原因卻通常是無法解釋的。
弗吉尼亞理工學(xué)院給出了這個(gè)問題的一個(gè)很好的展示。研究者創(chuàng)造了針對神經(jīng)網(wǎng)絡(luò)的「眼部追蹤系統(tǒng)」,它可以在一開始就記錄計(jì)算機(jī)正在檢測哪些像素。這些研究者向他們的神經(jīng)網(wǎng)絡(luò)展示了一張臥室的照片,然后問該人工智能:「什么遮住了窗戶?」他們發(fā)現(xiàn)這個(gè)人工智能根本不會去看窗戶,而是在看地板。然后,如果它發(fā)現(xiàn)了一張床,它就會給出答案:「是窗簾遮住了窗戶?!惯@正好是正確的,但這只是因?yàn)樵摼W(wǎng)絡(luò)接受訓(xùn)練的數(shù)據(jù)很有限而已。根據(jù)它曾經(jīng)看過的照片,這個(gè)神經(jīng)網(wǎng)絡(luò)總結(jié)得出:如果是在臥室,那么窗戶上就會有窗簾。所以當(dāng)它看到一張床時(shí),它就停止檢查了——在它眼里,它已經(jīng)看到了窗簾。這在邏輯上說得過去,但也很可笑。還有很多臥室沒有窗簾!
眼部追蹤是了解網(wǎng)絡(luò)內(nèi)部部分工作方式的一種方法,而另一種方法則是從項(xiàng)目一開始就在深度學(xué)習(xí)系統(tǒng)構(gòu)建更多的一致性(coherence)。實(shí)現(xiàn)此目標(biāo)的一種方法是重新使用一種老舊的已經(jīng)不再流行的機(jī)器學(xué)習(xí)方法——符號人工智能(symbolic AI),或者叫做良好的老式人工智能(GOFAI:Good Old-Fashioned Artificial Intelligence),帝國理工大學(xué)的認(rèn)知機(jī)器人學(xué)教授 Murray Shanahan(他也是電影《機(jī)械姬》的科學(xué)顧問)如是說。這種方法基于一個(gè)假設(shè):心智活動(dòng)可以簡化成基本的邏輯,其中世界是由復(fù)雜的符號詞典定義的。通過結(jié)合這些符號——其代表了行為、事件、物體等等——你就能合成思維。(如果按這種方式創(chuàng)造人工智能聽起來是一件很怪異的、不可能完成的任務(wù),那想象一下在運(yùn)行于磁帶上的計(jì)算機(jī)上實(shí)現(xiàn)它。)
Shanahan 的提議是我們將 GOFAI 的符號描述和深度學(xué)習(xí)結(jié)合起來。這將為系統(tǒng)提供一個(gè)理解世界的起點(diǎn),而不只是向其饋送數(shù)據(jù)然后等著它們發(fā)現(xiàn)其中的模式。他說,這可能不僅能解決人工智能的透明性問題,而且還能解決 Hadsell 提出的遷移學(xué)習(xí)問題?!缚梢哉f Breakout 和 Pong 是非常相似的,因?yàn)樗鼈兌加信淖雍颓?,但人類水平的認(rèn)知是在更加驚人的尺度上得出這種類型的聯(lián)系的,」Shanahan 說,「就好像原子結(jié)構(gòu)和太陽系結(jié)構(gòu)之間的聯(lián)系一樣?!?/span>
Shanahan 及其帝國理工大學(xué)的團(tuán)隊(duì)正在研究這種新方法(他們將其稱為深度符號強(qiáng)化學(xué)習(xí)(deep symbolic reinforcement learning)),并且已經(jīng)發(fā)表了一些小實(shí)驗(yàn)。這種方法仍處于起步階段,它能否擴(kuò)展到更大的系統(tǒng)和不同類型的數(shù)據(jù)上還有待觀察。但是,它很可能會得到更大的發(fā)展。畢竟,深度學(xué)習(xí)本身也曾是人工智能中一個(gè)無人問津的領(lǐng)域,直到近年來有了廉價(jià)的數(shù)據(jù)和充裕的處理能力之后深度學(xué)習(xí)才迎來爆發(fā)。也許是時(shí)候從人工智能的過去再次引爆一種方法了,以便將人工智能的能力應(yīng)用到新的環(huán)境中。