【AI原力覺醒】《紐約時報》兩萬字長文,深度剖析谷歌大腦簡史
文章中闡述了谷歌大腦團隊如何用神經(jīng)網(wǎng)絡(luò)改變谷歌翻譯這一谷歌重要產(chǎn)品,還探討了機器學(xué)習(xí)將如何重塑計算機這一概念本身。
序言:谷歌機器翻譯的威力
(文/Gideon Lewis-Kraus)11月的一個周五晚上,東京大學(xué)著名的人機交互教授Jun Rekimoto正準(zhǔn)備在線上進行一次報告。忽然,他在社交網(wǎng)絡(luò)上發(fā)現(xiàn)一個消息,谷歌翻譯忽然之間有了巨大的提升。他親自訪問了谷歌翻譯的頁面開始體驗。他被震驚了。躺到床上后,谷歌翻譯的威力還縈繞在他腦海中,讓他無法停止想象。
他起身在自己的博客上寫下了自己的發(fā)現(xiàn)。首先,他比較了兩位日本翻譯家所翻譯的《偉大的蓋茨比》中的幾句話與谷歌翻譯的結(jié)果。他認(rèn)為,谷歌翻譯的結(jié)果在日語上非常流暢。他認(rèn)為,谷歌的翻譯雖然有些不自然,但是比起翻譯家的作品,對他個人而言,卻更加易懂。
隨后,他又在谷歌翻譯上輸入日文(海明威的作品日文版),進而翻譯為英文,結(jié)果發(fā)現(xiàn)機器翻譯與海明威英文原著有著驚人的相似度。
四天之后,大量的記者、企業(yè)家和廣告商匯集到了谷歌位于倫敦的工程辦公室,這里會有一個特殊的消息公布,大家都開始猜測是不是會發(fā)布翻譯工具包。
倫敦市長Sadiq Khan首先發(fā)言,隨后,谷歌首席執(zhí)行官Sundar Pichai上臺。Pichai在倫敦的任務(wù)有一部分是為谷歌新的大樓舉行典禮。他曾經(jīng)在多個場合中提到,谷歌的未來,是要以“AI為先”。這句話的實際含義非常復(fù)雜,也引來了諸多推測。而實際上,這句話的含義,指的是很快這家公司的產(chǎn)品代表的將不再是傳統(tǒng)計算機編程的成果,而是“機器學(xué)習(xí)”。
谷歌CEO SundarPichai在他位于加州山景城的辦公室外面。來源:Brian Finke for The New York Times
谷歌很少提到的一個部門——谷歌大腦,創(chuàng)建于5年前,遵循的這樣一條簡單的原理:人工的“神經(jīng)網(wǎng)絡(luò)”能通過試錯,來熟知世界,正如嬰兒所做的那樣,這將為機器帶來一些像人一樣的靈活性。這一概念并不新鮮,它出現(xiàn)在20世紀(jì)40年代早期,但是絕大部分計算機科學(xué)家認(rèn)為這是很難實現(xiàn)的、甚至是神秘的。2011年開始,谷歌大腦開始用這一方法進軍人工智能,希望能解決傳統(tǒng)方法嘗試了數(shù)十年都沒有突破的難題。語音識別此前一直做得不好,但是谷歌大腦采用新方法后,讓安卓手機上的語音識別幾乎做到了人類水平。在圖像識別上也是如此,一年多以前,谷歌大腦首次把這一技術(shù)應(yīng)用到了商業(yè)化的產(chǎn)品中。
谷歌翻譯從2006年開始推出,已經(jīng)成為谷歌最可信最流行的產(chǎn)品之一。Pichai在演講中提到,難民危機使得谷歌再次意識到,跨地區(qū)性的翻譯多么重要。他背后的顯示屏展示了最近在谷歌上阿拉伯語和德語之間的翻譯請求數(shù)量在增多。
谷歌決心圍繞AI重組公司,是整個產(chǎn)業(yè)界機器學(xué)習(xí)熱的第一個重要證明。在過去的4年間,至少有6家公司——谷歌、Facebook、蘋果、亞馬遜和微軟,以及百度,都在搶奪AI人才,特別是在大學(xué)中。企業(yè)對資源和自由的承諾,已經(jīng)吸引了一些學(xué)術(shù)界人士。起薪7位數(shù)也不再是什么新鮮事。另外,學(xué)術(shù)會議參會人數(shù)幾乎翻了四倍。他們關(guān)注的不再是零碎的創(chuàng)新,而是要控制作為整體的代表的計算平臺——普遍性的、無處不在的人工智能。
“人工智能”一詞被提起時,好像它的意思是不言而喻的,但它一直都是爭議的根源。想象一下,如果你回到20世紀(jì)70年代,在街上攔住一個人,拿出一個智能手機,向他展示谷歌地圖。一旦你設(shè)法說服她,你不是一個奇怪穿著的巫師,從你的口袋里拿出的不是一個黑色護身符,而只是一個比阿波羅穿梭機更強大的電腦,谷歌地圖幾乎肯定似可以讓他認(rèn)為是“人工智能”的一個好例子。在一個非常真實的意義上,它確實是。它可以做任何人類在地圖上能做的工作,比如讓你從你的酒店到機場,而且它可以做得更快更可靠。它也可以做人類顯然不能做的事情:它可以評估交通,計劃最好的路線,在你走錯路時重新定位自己。
Pichai在演講中重新區(qū)分了現(xiàn)在的AI 應(yīng)用和通用人工智能的目標(biāo)。通用人工智能將不是關(guān)于具體指令的遵守,而是帶有闡釋性和理解性的推動。它將成為一種通用的工具,為通用環(huán)境、通用目的而設(shè)計。Pichai認(rèn)為,谷歌的未來所仰仗的,就是類似通用人工智能的這種東西。想象一下,如果你能告訴谷歌地圖,我要去機場,但是我還要在半路去給侄子買禮物。然后讓它給你計劃路線。這就是一種更通用版本的智能,一個無處不在的助手。就像電影《Her》中描述的那樣,她能知道所有的事情,比如,你侄子的年齡、你通常會在禮物上花費多少、怎么找到一家營業(yè)的商店。這一般是親密的朋友會知道的事。但是,一個真正智能的地圖還能知道更多,它知道你真正想要什么。根據(jù)你此前的行為會給你做出判斷。
現(xiàn)在流行的AI助手:蘋果的Siri、Facebook的M和亞馬遜的Echo,都是機器學(xué)習(xí)的產(chǎn)物,有著相同的作用。企業(yè)的機器學(xué)習(xí)夢想是無窮盡的,他們的目的是對消費者有更深的洞察。
下文講述的故事,就是從一兩個人,到三四個人,再到最后100多人的谷歌大腦,是如何在這一方向上取得巨大進展的。
第一部分:會學(xué)習(xí)的機器
1. 谷歌大腦的誕生
雖然Jeff Dean的頭銜是高級研究員(senior fellow),實際上確實谷歌大腦的大腦。Dean身材消瘦,瘦長的臉上眼窩深陷,透露著一股熱誠。作為醫(yī)學(xué)人類學(xué)家和公共衛(wèi)生流行病學(xué)家的兒子,Dean從小周游世界——美國的明尼蘇達州、夏威夷、波士頓、阿肯色州,此外日內(nèi)瓦、烏干達、索馬里、亞特蘭大等地,他在高中和大學(xué)期間寫的軟件被世界衛(wèi)生組織拿去用。他25歲左右,也就是1999年以來就一直在Google工作,從那時起,他在幾乎參與了開發(fā)所有重大項目的核心軟件系統(tǒng)。關(guān)于他的種種傳說Jeff Dean Facts在公司里成了一種文化。
2011年初的一天,Dean遇到了吳恩達,那時候吳恩達還是斯坦福計算機科學(xué)教授,是谷歌的顧問。吳恩達告訴了Dean他自己幫助在谷歌內(nèi)部建立的一個項目——Project Marvin(以著名的AI先驅(qū)馬文·明斯基命名),用于研究“神經(jīng)網(wǎng)絡(luò)”,模仿人類大腦結(jié)構(gòu)的數(shù)字網(wǎng)格。Dean 1990年在明尼蘇達大學(xué)讀本科時也做過類似技術(shù)的原始版,當(dāng)時那段時間神經(jīng)網(wǎng)絡(luò)還算流行?,F(xiàn)在,在過去的五年中,從事神經(jīng)網(wǎng)絡(luò)研究的學(xué)者數(shù)量已經(jīng)開始再次增長,從很少幾個到幾十個。吳恩達告訴 Dean,由谷歌X實驗室支持的Project Marvin已經(jīng)取得了一些好的結(jié)果。
Dean對這個項目很感興趣,于是拿出他20%的時間參與進來——每個Google員工都要拿出20%的時間從事自己核心業(yè)務(wù)以外的工作。很快,Dean建議吳恩達邀請有神經(jīng)科學(xué)背景的同事Greg Corrado加入,那時候Corrado聽說過人工神經(jīng)網(wǎng)絡(luò),但了解不多。后來,吳恩達最好的一個研究生Quoc Le也作為項目的第一個實習(xí)生加入了團隊。到那時,一些Google工程師開始用Google Brain稱呼Project Marvin。
從“人工智能”這個詞在1956年夏天達特茅斯會議誕生時起,大多數(shù)研究人員一直認(rèn)為創(chuàng)造AI的最佳方法是寫一個非常大的、全面的程序,包含了邏輯推理的規(guī)則和有關(guān)世界的充分的知識。這種觀點通常被稱為“符號AI”,它對認(rèn)知的定義是基于符號邏輯的。
符號AI有兩個主要問題。一是非常耗費人力和時間,二是只有在規(guī)則和定義非常清楚的領(lǐng)域才能有用:比如數(shù)學(xué)或國際象棋。使用符號AI做機器翻譯效果極差,因為語言雖有規(guī)則,但復(fù)雜多變,并且還有很多例外。但對于數(shù)學(xué)和國際象棋來說,符號AI工作得很好,而符號AI的支持者也認(rèn)為,沒有什么比數(shù)學(xué)和國際象棋更能代表“通用智能”。
但符號AI系統(tǒng)能做的事情是有限的。20世紀(jì)80年代,CMU的一位機器人研究員指出,讓計算機做成人能做的事情很簡單,但讓計算機做一歲兒童做的事情幾乎不可能,比如拿起一個球或識別一只貓。到20世紀(jì)90年代,盡管在國際象棋上取得了很大的進步,我們?nèi)匀浑x通用人工智能很是遙遠。
關(guān)于AI還有一個不同的看法,這種觀點認(rèn)為計算機將從底層(數(shù)據(jù))而不是從頂層(規(guī)則)學(xué)習(xí)。這個概念可追溯到20世紀(jì)40年代初,當(dāng)時研究人員發(fā)現(xiàn)靈活自如智能的最佳模型就是人類大腦本身。說到底,大腦只是由神經(jīng)元組成的,神經(jīng)元之間可以相互通電(或不通電)。單個神經(jīng)元并不重要,重要的是神經(jīng)元的整體連接。這種簡單的結(jié)構(gòu)為大腦提供了很多優(yōu)勢,能夠適應(yīng)環(huán)境。大腦可以在信息很差或缺失的情況下工作;可以承受重大的損害,也不會完全失去控制;可以以非常有效的方式存儲大量的知識;可以清楚區(qū)分不同的模式,同時又保留足夠的混亂以處理歧義。
你可以用電子元件模擬這種結(jié)構(gòu),1943年的實驗表明,簡單的人工神經(jīng)元網(wǎng)絡(luò)可以執(zhí)行基本的邏輯運算。這些電子元件至少在理論上,可以學(xué)習(xí)我們?nèi)祟愖鍪碌姆绞健T谏钪?,我們會通過各種試錯改變神經(jīng)元對之間的突觸連接的強弱。人工神經(jīng)網(wǎng)絡(luò)也可以做到類似的事情,通過不斷試錯,改變?nèi)斯ど窠?jīng)元之間的數(shù)字關(guān)系。人工神經(jīng)網(wǎng)絡(luò)不需要使用固定的規(guī)則預(yù)編程,它可以改變自身以反映所吸收的數(shù)據(jù)中的模式。
這種對人工智能的看法可以說是演化論而不是創(chuàng)造論。如果你想要一個靈活的機制,能夠適應(yīng)環(huán)境,你最開始就不想灌輸它固定的規(guī)則。你可以從非常基本的能力——感官知覺和運動控制開始,希望更高的技能有機地出現(xiàn)。人類不是通過背誦字典和語法書學(xué)習(xí)理解語言,所以為什么要讓計算機這樣做呢?
谷歌大腦是第一個對上述想法進行商用投資的機構(gòu)。Dean、Corrado和吳恩達(兼職)開始合作,立即就取得了進展。他們從最近的理論大綱以及自20世紀(jì)80年代和90年代的想法中吸取靈感,并利用谷歌無與倫比的數(shù)據(jù)儲備和龐大的計算基礎(chǔ)設(shè)施。他們將大量“標(biāo)記”數(shù)據(jù)輸入網(wǎng)絡(luò),計算機的輸出不斷改進,愈發(fā)接近現(xiàn)實。
“動物演化出眼睛是一個巨大的發(fā)展,”Dean有一天告訴我。我們像往常一樣坐在會議室里,Dean在白板上畫了一條繁復(fù)彎曲的時間線,表現(xiàn)Google Brain以及這個團隊與神經(jīng)網(wǎng)絡(luò)的歷史關(guān)系。“現(xiàn)在計算機也有眼睛了。我們可以以此為基礎(chǔ)讓計算機理解照片。機器人將得到徹底地改變。機器人將能夠在一個未知的環(huán)境中,處理許多不同的問題上。”他們在機器人身上開發(fā)的這些能力可能看起來很原始,但其意義卻是深遠的。
2. 多倫多大學(xué)教授Hinton成為谷歌的實習(xí)生
Geoffrey Hinton在谷歌多倫多辦公室。他的想法為谷歌神經(jīng)網(wǎng)絡(luò)機器翻譯方法奠定了基礎(chǔ)。來源:Brian Finke for The New York Times
Dean表示,Google Brain成立后一年左右,開發(fā)具有一歲兒童智力的機器的實驗取得了巨大的進展。谷歌的語音識別團隊將其舊系統(tǒng)的一部分改為神經(jīng)網(wǎng)絡(luò),并且效果得到很大提升,甚至取得了近20年中最好的成果。谷歌物體識別系統(tǒng)的能力也提高了一個數(shù)量級。這不是因為Google Brain團隊成員在短短一年間產(chǎn)生了一系列超棒的新想法,而是因為谷歌終于投入了資源——計算機和越來越多的人力。
Google Brain成立的第二年,Geoffrey Hinton加入了,而吳恩達則離開(現(xiàn)在是百度首席科學(xué)家,領(lǐng)導(dǎo)1300人規(guī)模的AI團隊)。Hinton當(dāng)時只想離開多倫多大學(xué)在谷歌待三個月,所以由于各種原因,谷歌不得不被聘他為實習(xí)生。在實習(xí)生培訓(xùn)過程中,輔導(dǎo)人員會說“輸入你的LDAP(即用戶登錄碼)”,Hinton會舉手問:“什么是LDAP?”在場所有二十幾歲的年輕人,只知道人工智能的皮毛,都在想“那個老家伙是誰?為什么他連LDAP都不懂?”
Hinton說,直到有一天,有人在午餐時對他說“Hinton教授!我選修了你的課!你在這里做什么?”自此以后,再也沒有人質(zhì)疑Hinton作為實習(xí)生的存在。
幾個月后,Hinton和他的兩個學(xué)生在ImageNet大型圖像識別競賽中取得了驚人的成果,讓計算機不僅識別出猴子,而且區(qū)分蜘蛛猴和吼猴,以及各種各樣不同品種的貓。谷歌很快就向Hinton和他的學(xué)生提出了Offer。他們也都接受了。“我以為他們對我們的知識產(chǎn)權(quán)感興趣,”Hinton說:“結(jié)果他們對我們這幾個人感興趣。”
Hinton出身于一個古老的英國家族。他的曾祖父George Boole在符號邏輯方面的基礎(chǔ)工作為計算機專業(yè)打下基礎(chǔ);Hinton的另一個曾祖父是著名的外科醫(yī)生,Hinton的父親是一個熱愛冒險家的昆蟲學(xué)家,Hinton父親的表哥在Los Alamos研究所工作,等等等等。Hinton先后在劍橋大學(xué)和愛丁堡大學(xué)學(xué)習(xí),然后在卡內(nèi)基梅隆大學(xué)讀博士,最后到了多倫多大學(xué),現(xiàn)在Hinton大部分時間都在多倫多大學(xué)。(Hinton的工作長期以來一直受到加拿大政府的慷慨支持。)我在Hinton的辦公室訪問了他。Hinton說話睿智詭異,比如“計算機會比美國人更早理解諷刺”。
Hinton從上世紀(jì)60年代末在劍橋大學(xué)讀本科開始,一直致力于研究神經(jīng)網(wǎng)絡(luò),也被認(rèn)為是該領(lǐng)域的先驅(qū)。很長時間以來,每當(dāng)Hinton說起機器學(xué)習(xí),人們都用不屑的眼神看著他。神經(jīng)網(wǎng)絡(luò)一度被視為學(xué)術(shù)死路,主要是由于感知機(Perceptron)這個當(dāng)時得到過度吹捧的概念。感知機是康奈爾心理學(xué)家Frank Rosenblatt在20世紀(jì)50年代末開發(fā)的一個人工神經(jīng)網(wǎng)絡(luò)。當(dāng)時《紐約時報》報道,感知機項目自助者美國海軍期望它“能夠走路、說話、會看、會寫,會生產(chǎn)(reproduce)自己,意識到自己的存在”。結(jié)果這些感知機基本都沒實現(xiàn)。馬文·明斯基(Marvin Minsky)在1954年普林斯頓的論文中以神經(jīng)網(wǎng)絡(luò)為研究主題,但他對Rosenblatt關(guān)于神經(jīng)范式所做的夸張說法已經(jīng)厭倦了。(明斯基也在爭取國防部的研究資金。)后來,明斯基與MIT的同事合作出版了一本書,證明有一些非常簡單的問題是感知器永遠不能解決的。
明斯基當(dāng)時對感知機的批評只涉及只有一個“層”的網(wǎng)絡(luò),也就是在輸入和輸出之間只有一層神經(jīng)網(wǎng)絡(luò)——后來明斯基闡述了與當(dāng)代深度學(xué)習(xí)非常相似的想法。但是,當(dāng)時Hinton就已經(jīng)知道,如果使用很多層神經(jīng)網(wǎng)絡(luò),就可以執(zhí)行復(fù)雜的任務(wù)。簡單說,神經(jīng)網(wǎng)絡(luò)就是一臺機器,能夠從數(shù)據(jù)中發(fā)現(xiàn)模式并以此進行分類或預(yù)測。有一層神經(jīng)網(wǎng)絡(luò),你可以找到簡單的模式;有多層神經(jīng)網(wǎng)絡(luò),就可以找出模式中的模式。以圖像識別為例,執(zhí)行圖像識別的神經(jīng)網(wǎng)絡(luò)主要使用“卷積神經(jīng)網(wǎng)絡(luò)”(這在1998年的一篇開創(chuàng)性論文中闡述的概念,該論文的主要作者、法國人Yann LeCun跟著Hinton在多倫多大學(xué)做了博士后,現(xiàn)任Facebook人工智能實驗室負(fù)責(zé)人),網(wǎng)絡(luò)的第一層學(xué)習(xí)識別圖像非?;镜囊曈X效果“邊緣”,也就是一個像素旁邊沒有什么任何東西(反之亦然)。接下來網(wǎng)絡(luò)的每一層都在前一層中尋找模式。邊緣的模式可以是圓形,也可以是矩形。圓形或矩形的圖案可能是面部,等等。這種方法類似于人眼將信息組合在一起的方式,從視網(wǎng)膜中的光線感受器返回信息到大腦的視覺皮層。在每個步驟中,不立即相關(guān)的細(xì)節(jié)被丟棄。如果幾個邊緣和圓圈合在一起成為一張臉,你不會在乎在視野中這張臉的位置;你只會在乎它是一張臉。
多層也即“深度”神經(jīng)網(wǎng)絡(luò)的問題是試錯法部分非常復(fù)雜。單層的網(wǎng)絡(luò)很容易,多層的訓(xùn)練起來就復(fù)雜了。Hinton和其他幾個人發(fā)明了一個方法(或者說,改進了一個舊的方法)解決這個多層出錯的問題,那是在20世紀(jì)70年代末到80年代,為此計算機科學(xué)家對神經(jīng)網(wǎng)絡(luò)的興趣又短暫地復(fù)燃了一會兒。“人們對此非常興奮,”Hinton說:“但我們把它夸大了。”于是,計算機科學(xué)家很快回到了認(rèn)為像Hinton那樣的人是怪人和神秘主義者的狀態(tài)。
不過,這些想法在哲學(xué)家和心理學(xué)家之間仍然很受歡迎,他們稱之為“連接主義”或“并行分布式處理”。盡管加拿大政府很慷慨,但就是沒有足夠的計算機力或足夠多的數(shù)據(jù)。Hinton 表示,支持我們想法的人不斷說:“是的,只要有一個大的機器就會工作了,但這不是一個非常有說服力的論據(jù)。”
3. 深度學(xué)習(xí)的深度解讀
當(dāng)Pichai在說谷歌將以“AI為先”時,他并不僅僅在描述公司的商業(yè)戰(zhàn)略,也同時把這一長久以來都沒有起到多大作用的概念扔給了公司。Pichai在資源上的分配保證了像Jeff Dean和Hinton之類的人,有足夠的計算能力和數(shù)據(jù),來取得可靠的進展。一個人類的大腦保守估計有1000億個排列著的神經(jīng)元。每一個神經(jīng)元與10萬個類似的神經(jīng)元相連,也就是說,突觸的數(shù)量在100萬億到1000萬億之間。對于20世紀(jì)40年代提出的一個簡單的人工智能神經(jīng)網(wǎng)絡(luò)來說,即使要簡單的復(fù)制這一網(wǎng)絡(luò)都是不可想象的。我們現(xiàn)在離建造這樣一個網(wǎng)絡(luò)依然還有很遠的路要走,但是,谷歌大腦的投資,至少可以讓人工神經(jīng)網(wǎng)絡(luò)可以與大腦的某一切片功能相當(dāng)。
要理解擴展性(Scale)為什么那么重要,你需要理解更多的細(xì)節(jié),也就是,機器究竟對數(shù)據(jù)作做了什么?我們對AI的普遍性的恐懼,大都來源于認(rèn)為它們會像一個神秘的學(xué)者一般在圖書館挖掘?qū)W習(xí)知識,然后,從前只會裁紙的機器或許有一天能像對待一只螞蟻或者萵苣一樣對待人類。但這并不是AI的工作方式。它們所做的全部事情都是搜索信息,尋找共同點,最開始是基本的模式,隨后會變復(fù)雜,最后,最大的危險在于,我們所喂給它們的信息從一開始就是錯誤或者帶有偏見的。
“知道什么”和“做什么”的權(quán)衡具有真正的文化及社會影響。在聚會上,Schuster走到我跟前,訴說向媒體解釋他們的論文的挫折。他問我:“你看了最早出來的新聞嗎?”他復(fù)述早報上的一個標(biāo)題,一個字一個字地指著念:“谷歌說AI翻譯已經(jīng)與人類無差”。在論文即將完成的最后幾周,團隊沒停下過奮斗。Schuster經(jīng)常重復(fù)地向人解釋,論文表達的是“谷歌翻譯比以前好多了,但還不如人類好”。他表達的很明確,他們的努力不是說要替代人類,而是輔助人類。
4. 識別貓臉的論文
在谷歌大腦成立的第一年到第二年間,他們讓機器掌握一歲小孩的技能的努力幸運地達成了,所以,他們的團隊也從谷歌X實驗室“畢業(yè)”,轉(zhuǎn)變?yōu)楦蟮难芯繖C構(gòu)。(谷歌X的主管曾經(jīng)說過,谷歌大腦負(fù)擔(dān)了所有X實驗室的成本支出。)他們的人數(shù)在當(dāng)時仍然少于10個人,對于最終會實現(xiàn)什么,也只有一些模糊的感覺。但是,即便是在當(dāng)時,他們的思想也走在了前面,想著接下來會發(fā)生什么。人類的思維中,首先學(xué)習(xí)的是形狀,比如說一個球,然后也會很舒服地接受所學(xué)到的知識,停留一段時間,但是遲早的電腦會需要問關(guān)于這個球的事,這就過渡到了語言。
在這一方向上,谷歌大腦做的第一件事是“識別貓”,這也是令谷歌大腦聲名大噪的一件事。“識別貓”的論文展示的是,帶有超過10億個“突觸”連接的神經(jīng)網(wǎng)絡(luò),這比當(dāng)時任何公開的神經(jīng)網(wǎng)絡(luò)模型都要大好幾百倍,但是與人類的大腦相比,依然小了好幾個數(shù)量級。這一神經(jīng)網(wǎng)絡(luò)能識別原始的、費標(biāo)簽的數(shù)據(jù),并識別高難度的人類概念。谷歌大腦的研究者向神經(jīng)網(wǎng)絡(luò)展示了幾百萬幀靜態(tài)的Youtube視頻,然后,神經(jīng)網(wǎng)絡(luò)的感覺中樞開始運轉(zhuǎn),分離出了一個穩(wěn)定的模型。和所有的小孩一樣,這一模型能毫不猶豫地識別出貓的臉。
研究員從未把關(guān)于貓的先驗知識編程輸入到機器中,機器直接與現(xiàn)實世界交互并且抓住了“貓”這一概念。(研究者發(fā)現(xiàn),這一神經(jīng)網(wǎng)絡(luò)就好像核磁共振成像一般,貓的臉部的陰影會激活人工神經(jīng)元,讓它們產(chǎn)生集體的喚醒。)
當(dāng)時,絕大多數(shù)機器的學(xué)習(xí)都受到標(biāo)簽數(shù)據(jù)的數(shù)量限制。“識別貓”的論文展示了,機器同樣能識別原始的非標(biāo)簽數(shù)據(jù),有時候或許是人類自身都還沒建立起知識的數(shù)據(jù)。這一研究看起來并不僅僅是讓機器識別貓臉的巨大進步,對于人工智能的整體發(fā)展都有很大意義。
“識別貓”的研究第一作者是Quoc Le。Le又矮又瘦,說話輕柔但語速極快,他從小在越南長大,父母都是農(nóng)民,小時候家里甚至都沒有電。但是,他在數(shù)學(xué)上的天賦顯然來自他的童年時期。20世紀(jì)90年代,他還在上學(xué)時,就曾經(jīng)嘗試開發(fā)聊天機器人。他在想,這會有多困難呢?
“但是實際上”,他告訴《紐約時報》的記者,“這非常難”。
隨后,他離開了越南到澳大利亞的堪培拉大學(xué)學(xué)習(xí),主要研究計算機視覺一類的AI任務(wù)。當(dāng)時,這一領(lǐng)域使用的方法,是要給機器填入大量的關(guān)于事物的定義性概念,這讓他覺得像是在作弊。Le當(dāng)時并不知道,或者說不是清楚地知道,世界上另外一些地方至少有幾十名計算機科學(xué)家和他一樣,也同時在情不自禁地想象:機器是能夠從零開始學(xué)習(xí)的。
2006年,Le在德國的馬克斯普朗克研究所生物控制部門任職。在那里的一個讀書小組中,他看到了Geoffrey Hinton的兩篇論文,他覺得自己的雙眼瞬間明亮了。
“當(dāng)時有很大的爭議”,他告訴我說,“非常非常大的爭議”。他看了一眼自己畫在白板上曲線,又輕聲重復(fù)到,“我從來沒有見到過那么大的爭議。”
他記得自己在閱讀小組中站起來,并說:“這就是未來。” 他回憶說,在當(dāng)時,這并不是一個很受歡迎的決定。他在澳大利亞的舊導(dǎo)師曾寫郵件問他,“你為什么做了這個決定?”
“當(dāng)時我并沒有想到好的答案,我只是好奇”,他說,“(論文)提出了一個很成功的范式,但是老實說,我只是對這一范式感到好奇。”隨后,他去了斯坦福,加入了吳恩達的團隊,開始追求Hinton的理念。“2010年年底,我已經(jīng)非常確信,會有一些事情發(fā)生了。”
隨后,他到倫敦開始第一份實習(xí),并完成了畢業(yè)論文,這也是“識別貓”的論文的前身。
在一個簡單的層面上,Le想看看計算機是否可以被訓(xùn)練,從而自己識別對于給定圖像絕對必要的信息。他給神經(jīng)網(wǎng)絡(luò)填入了一個他從YouTube采取的靜態(tài)片段。然后他告訴神經(jīng)網(wǎng)絡(luò)丟棄圖像中包含的一些信息,雖然他沒有指定應(yīng)該或不應(yīng)該丟棄的東西。機器拋棄了一些信息,最初是隨機的。然后他告訴計算機:“剛才是開玩笑!現(xiàn)在重新創(chuàng)建初始圖像,你只是根據(jù)你保留的信息進行顯示。”就像他要求機器找到一種方法來“總結(jié)”圖像,然后從摘要再回溯到最初的圖像。如果摘要是基于不相關(guān)的數(shù)據(jù),如天空的顏色,而不是胡須,機器就不能執(zhí)行好的重建。
機器的反應(yīng)跟遠古時期的人類很像,他們對于一只老虎的印象,是在自己看見猙獰的老虎時跑開的過程中留下的。但是,與人類的祖先不同的是,Le的神經(jīng)網(wǎng)絡(luò),需要進行一次一次又一次的嘗試。每一次,從數(shù)學(xué)的層面上,都會選擇對不同的信息進行優(yōu)化,然后表現(xiàn)會越來越好。
但是,神經(jīng)網(wǎng)絡(luò)是黑箱。它確實產(chǎn)生了一個模型,但是模型本身通常很難被人類理解或者觀察到。
Le并沒有覺得“貓臉識別”的成果讓他變得更有發(fā)言權(quán),但是,他感受到了一種動力,這種研究也許跟他早年希望開發(fā)的聊天機器人有聯(lián)系。在“識別貓”的論文發(fā)表以后,他意識到,如果你能讓一個神經(jīng)網(wǎng)絡(luò)對照片進行總結(jié),你也可以讓它對一些句子進行總結(jié)。在接下來的兩年中,這些想法一直纏繞著Le,以及他在谷歌大腦的同事——Thomas Mikolov。
有一段時間,他們與谷歌的高管分享同一個辦公室。后來有一天他們從管理員處得到一封電子郵件,要求他們不要再讓團隊成員在Larry Page和Sergey Brin的套房前面的沙發(fā)上睡覺。后來,他們終于在街道對面分到了一個辦公室。
在談到Mikolov時,Le變得很嚴(yán)肅,但是又不斷提起他們的合作。后來才知道,原來Mikolov 后來去了Facebook。
Google Brain團隊成員2012年合影,他們著名的“計算機識別貓臉”展示了神經(jīng)網(wǎng)絡(luò)分析未標(biāo)記數(shù)據(jù)的能力。來源:谷歌
他們在這段時間試圖設(shè)計出的神經(jīng)網(wǎng)絡(luò)架構(gòu),不僅可以適應(yīng)簡單的照片分類,這是靜態(tài)的,而且還復(fù)雜的結(jié)構(gòu),隨著時間的推移變化的,如語言或音樂。這些概念許多是在20世紀(jì)90年代首次提出的。Le和他的同事回到了那些長期被忽視的概念中,看看他們可以收集什么。他們知道,一旦你建立了一個具有基本語言預(yù)測能力的設(shè)施,你就可以繼續(xù)做其他各種智能的事情, 例如預(yù)測一個合適的電子郵件回復(fù),或預(yù)測一個智能的談話的流程。你就可以側(cè)重于那種看起來很像思維的能力,至少從表面看是這樣的。
第二部分:語言機器
語言學(xué)的轉(zhuǎn)折
谷歌大腦中現(xiàn)在有上百名的成員,但是它看起來并不像是一個有著明顯的層級結(jié)構(gòu)的部分,而是更像一個俱樂部或者學(xué)術(shù)團體,或者一個小酒吧。團隊成員不少是來自谷歌整個體系中最自由、最受敬仰的員工。他們現(xiàn)在在一個兩層蛋殼建筑中辦公,有巨大的窗戶:他們的小廚房有一個桌式足球我從來沒有見過使用;Rock Band我從來沒有見過使用;和一個Go工具箱我看到使用了幾次。
我在6月份第一次到谷歌大腦辦公室時,還有許多空余的辦公位,但是現(xiàn)在已經(jīng)全滿了。
谷歌大腦的成長使得Jeff Dean對公司如何處理需求感到有些擔(dān)憂。他希望避免在谷歌被稱為“成功災(zāi)難”——這種情況指的是,公司的理論研究能力超過了實際開發(fā)產(chǎn)品的能力。某一天,他在做了一些計算后,向高管作了匯報,只用了兩頁的PPT。
“如果未來每個人每天都對自己的安卓手機說話三分鐘,”他告訴高管,“(由此產(chǎn)生的數(shù)據(jù)計算需求)就是我們所需要的機器數(shù)量。”未來,他們需要把自己的全球計算配置翻2-3倍。
“這也就是說,你必須建造新的大樓,”Jeff Dean在說這話時,帶了明顯的猶豫和斟酌。
但是,他們顯然還有另一個選擇——設(shè)計出大規(guī)模生產(chǎn)的,能在不同的數(shù)據(jù)中心分散使用的新芯片。加快運算速度。這些芯片被稱為TPU。這些芯片比傳統(tǒng)芯片在精確度上要低一些。但是運算速度更快。從12.246X64.392變?yōu)?2X54 。
在數(shù)學(xué)層面上,神經(jīng)網(wǎng)絡(luò)只是數(shù)百或數(shù)千或數(shù)萬的矩陣乘法,以連續(xù)不斷的形式出現(xiàn)。所以,讓計算更快比更準(zhǔn)確要重要。
“通常,”Dean說,“專用硬件是個壞創(chuàng)意。它通常只可以加速一件事。但是由于神經(jīng)網(wǎng)絡(luò)的通用性,你可以利用這個專用硬件來處理很多其他事情。”
就在芯片設(shè)計接近完工時,Le和他的兩位同事終于證明了神經(jīng)網(wǎng)絡(luò)可能可以處理語言結(jié)構(gòu)。他描繪了一個“詞嵌入”的概念,這一概念出現(xiàn)已經(jīng)有10年了。也就是說,當(dāng)你對圖像進行總結(jié)時,你可以分隔圖像,來分階段組成總結(jié),比如邊緣、圓圈等等。當(dāng)你用相同的方式對語言進行總結(jié),你最重要的是要制造出關(guān)于距離的多維度地圖。機器不會像人類一樣去“分析”數(shù)據(jù),使用語言規(guī)則來區(qū)分是名詞還是動詞。它們只是轉(zhuǎn)化和改變或者組合地圖中的詞。
如果你能把所有法語中的詞和所有英語重點詞放在一起,至少在理論上,你可以訓(xùn)練一個神經(jīng)網(wǎng)絡(luò),來學(xué)習(xí)如何把一個句子放到空間中,并產(chǎn)生一個類似的句子。
你要做的是把這些數(shù)百萬的英語句子作為輸入,把可能的法語句子作為輸出,在多次訓(xùn)練后,模型能是被出相關(guān)的詞語組合模型,這和圖像識別中的像素模型是一樣的。然后你就能給機器一個英語句子,讓他它產(chǎn)出一個與之匹配的法語句子。
詞和像素最大的不一樣在在于,圖中的像素是一次性能全部拿到的,但是,詞的出現(xiàn)是根據(jù)時間漸進的。你需要讓網(wǎng)絡(luò)“記住”這種連續(xù)性,或者序列性。2014年9月,有三篇論文發(fā)表,一篇是Le寫的,另外兩篇來自加拿大和德國,這些論文至少提供了完成這些任務(wù)所需要的理論工具。這些研究讓谷歌大腦中的一些項目成為了可能,比如研究機器如何生成藝術(shù)作品和音樂的Magenta。研究也為機器翻譯等實用性應(yīng)用打下了基礎(chǔ)。Hinton對《紐約時報》的記者說,他本來認(rèn)為這些研究要至少5年或者更多的時間才能做成。
6. 伏擊
Le的論文顯示神經(jīng)翻譯是可行的,但他只使用了一個相對較小的公共數(shù)據(jù)集。(所謂的小只是相對于Google的體量而言。這個數(shù)據(jù)集實際上是世界上最大的公共數(shù)據(jù)集。十年來,原有的Google Translate已經(jīng)收集了上百到上千倍的生成數(shù)據(jù)。)更重要的是,Le的模型對長于約七個字句子的效果不是很好。
谷歌大腦的研究科學(xué)家Mike Schuster接手了指揮棒。他知道,如果谷歌沒有找到一種方法來擴展這些理論洞見至生產(chǎn)水平,那么別人會。這個項目花了他接下來的兩年。 “你會認(rèn)為,”Schuster說,“要翻譯東西,你只需得到數(shù)據(jù),運行實驗,你就完成了,但實際不是這樣的。”
Schuster是個緊張、專注、不顯老的人,長著一個曬黑的、活塞形的腦袋,窄肩,長迷彩短褲垂至膝蓋之下,腳踏綠色Nike Flyknits鞋。他的模樣看起來好像早上他剛從蓮蕊中醒來,抓起他那小而無邊的橢圓眼鏡,像松鼠吃橡子般補充了卡路里,并在來辦公室的路上完成了一個輕松的沙漠十項全能。在現(xiàn)實中,他告訴我,他騎行了18英里來上班。
Schuster在前西德的重工業(yè)區(qū)杜伊斯堡長大,研究電氣工程,然后前往京都從事早期的神經(jīng)網(wǎng)絡(luò)。在20世紀(jì)90年代,他用來運行實驗的神經(jīng)網(wǎng)絡(luò)機像會議室一樣龐大; 它要花費數(shù)百萬美元,必須訓(xùn)練幾個星期,卻只能做一些你現(xiàn)在可以一小時內(nèi)在電腦桌面能做到的事。他在1997年發(fā)表了一片文章,在之后的十五年里幾乎無人引用;而今年,這篇論文已被引用了大約150次。他不失幽默,但他經(jīng)常露出嚴(yán)厲的表情,我認(rèn)為這種表情體現(xiàn)了他的德國式克制和日本式克制的結(jié)合。
Schuster必須處理的問題是纏結(jié)性的。首先,Le的代碼是定制化的,它與Google當(dāng)時開發(fā)的新開源機器學(xué)習(xí)平臺TensorFlow不兼容。Jeff Dean在2015年秋天向Schuster指派了另外兩位工程師,Wu Yonghui和Zhifeng Chen。他們花了兩個月的時間把Le的結(jié)果復(fù)制到新系統(tǒng)。Le也在附近,但即使Le本人也不是總能理解項目的進展。
正如Schuster所說,有些東西的進展不是能完全意識到的。工程師自己也不知道新系統(tǒng)為什么行得通。
今年二月,谷歌的研究機構(gòu) ——該機構(gòu)是谷歌的一個較為散漫的部門,大約1000名員工,致力于前瞻性和不可分類的研究 —— 在舊金山威斯汀酒店的聯(lián)合廣場上召集骨干進行外出靜思會,酒店的豪華程度略遜于谷歌在一英里外的自家店鋪。上午進行了幾輪“閃電會談”,快速交流了研究前沿,下午則在跨部門的“互促性討論”中度過。谷歌希望靜思會可以帶來不可預(yù)測的、間接的、貝爾實驗室式的交流,以讓谷歌這個成熟的公司保持多產(chǎn)。
在午餐時間,Corrado和Dean結(jié)伴尋找谷歌翻譯的主任Macduff Hughes。Hughes正在獨自吃飯,Corrado和Dean從兩側(cè)截住了他。正如Corrado所說,“我們伏擊了Hughes”。
“嘿,”Corrado對屏住呼吸、面露懷疑的Hughes說:“我們有東西告訴你。”
他們告訴Hughes,2016年似乎很適合用神經(jīng)網(wǎng)絡(luò)對谷歌翻譯—— 由數(shù)十名工程師10多年積累的代碼 ——進行大修。舊系統(tǒng)采用的是所有機器翻譯系統(tǒng)已經(jīng)用了30年的工作方式:它從每個連續(xù)句子中分出片段,在一個大型統(tǒng)計詞庫中查找這些詞,然后應(yīng)用一組后處理規(guī)則以附加適當(dāng)?shù)脑~綴,并重新排列以產(chǎn)生意義。這種方法被稱為“基于短語的統(tǒng)計機器翻譯”,因為當(dāng)系統(tǒng)到達下一個短語時,它并不知道上一個短語是什么。這也就是Google Translate的輸出有時看起來像一大包冰凍磁鐵的原因。Google Brain引入的大修,將使它能一次性閱讀和渲染整個句子,讓它能捕捉語境,以及某種近似于意義的東西。
項目帶來的利益似乎很低:谷歌翻譯產(chǎn)生的收入很低,而且這種狀況大概會持續(xù)下去。對大多數(shù)英語用戶來說,即便服務(wù)性能實現(xiàn)了徹底升級,他們也只會將之視為預(yù)期之內(nèi)的進步。但這個團隊要證明,實現(xiàn)人類質(zhì)量的機器翻譯不僅具有短期必要性,而且會帶來長遠的革命性發(fā)展。在不遠的將來,它將對公司的業(yè)務(wù)戰(zhàn)略至關(guān)重要。谷歌估計,50%的互聯(lián)網(wǎng)使用英語,這可能占世界人口的20%。如果谷歌要在中國—— 在中國搜索引擎流量的大部分份額屬于其競爭對手百度——或印度進行競爭,體面的機器翻譯將是基礎(chǔ)設(shè)施不可或缺的一部分。百度本身已經(jīng)在2015年7月發(fā)表了一篇關(guān)于神經(jīng)機器翻譯可能性的開創(chuàng)性文章。
在更遙遠的、可推測的未來,機器翻譯也許是朝向一個具有人類語言能力的通用計算設(shè)施的第一步。而這將代表通向真正人工智能的一個重大拐點。
硅谷的大多數(shù)人都知道機器學(xué)習(xí)的前景正在快速接近,所以Hughes也預(yù)計到了他會被機器學(xué)習(xí)團隊的人伏擊。但他仍然感到懷疑。他是一個溫和,固執(zhí)、一頭灰發(fā)的中年男子。他是一個老牌的流水線型工程師,那種在1970年代的波音公司能看到的工程師。他的牛仔褲口袋里經(jīng)常塞著奇形怪狀的工具,好像他正要去測量磁帶或熱電偶,和許多為他工作的年輕人不同,他有自己的柜子。他知道在谷歌和其他地方的各種人一直在嘗試進行應(yīng)用層面的神經(jīng)翻譯工作,這些工作已持續(xù)多年但沒什么進展。
Hughes聽了Corrado和Dean的建議,最后他謹(jǐn)慎地說,也許他們可以把計劃延遲到三年之年之后。
Dean不這么認(rèn)為。他說,“我們可以在年底之前做到這一點,如果我們?nèi)褙炞⑷プ龅脑挕?rdquo;人們?nèi)绱讼矚g和欽佩Dean的一個原因是,他長期以來總是能全神貫注地辦成事。另一個原因是,當(dāng)他真誠地說出“只要我們?nèi)褙炞⒕湍苻k成”的時候,他一點也不怕尷尬。
休斯很確定,這種系統(tǒng)轉(zhuǎn)換不會在短時間內(nèi)發(fā)生。但他也不拒絕嘗試。他回去后告訴他的團隊:“讓我們?yōu)?016年做準(zhǔn)備吧。我不會是那個說Jeff Dean無法帶來改變的人。”
一個月后,他們終于能夠運行一個并行實驗以比較Schuster的新系統(tǒng)和Hughes的舊系統(tǒng)。Schuster想用英語-法語語言對來測試它,但Hughes建議他嘗試別的語言對。“英語-法語翻譯已經(jīng)很好了,改進不會很明顯。”
這是一個令Schuster無法抗拒的挑戰(zhàn)。評估機器翻譯的基準(zhǔn)度量被稱為BLEU分?jǐn)?shù),它將機器翻譯與大量可靠的人類翻譯的平均值進行比較。當(dāng)時,英語-法語的最佳BLEU分?jǐn)?shù)值高達20多。將分?jǐn)?shù)提升一個點,將被認(rèn)為是非常好的改進; 提升兩個點就會被認(rèn)為是是杰出的。
在英語到法語語言對上面,神經(jīng)系統(tǒng)相比舊系統(tǒng)帶來了高達7分的改進。
Hughes告訴Schuster的團隊,在過去四年里,他們在自己的系統(tǒng)中從沒有出現(xiàn)過這么強勁的改進。
為了確保這不是一個僥幸,他們也雇人進行人工對比。在用戶體驗得分系統(tǒng)中,樣本句子的分值從0到6,神經(jīng)系統(tǒng)帶來的平均改善達0.4,這大致相當(dāng)于舊系統(tǒng)在其整個生命周期中帶來的總增益。
谷歌的Quoc Le(右),他的工作證明了神經(jīng)翻譯的合理性,Mike Schuster則幫助將這項工作應(yīng)用于谷歌翻譯。來源:Brian Finke for The New York Times
3月中旬,Hughes給他的團隊發(fā)了一封電子郵件:舊系統(tǒng)上的所有項目都將立即暫停。
7. 讓概念成為產(chǎn)品
在那之前,神經(jīng)翻譯團隊只有三個人 ——Schuster、Wu和Chen ——但隨著Hughes的支持,更廣泛的團隊開始合并。他們星期三下午2點在Schuster的引領(lǐng)下來到了位于Quartz Lake的Google Brain辦公室內(nèi)的一個角落房間。會議有十幾人參加。當(dāng)Hughes或Corrado在場時,他們往往是唯一的兩名英語母語人士。工程師們有的講中文,越南語,有的講波蘭語,俄語,阿拉伯語,德語或日語,雖然在現(xiàn)實中他們大多使用高效的混雜語數(shù)學(xué)來交流。在Google,人們并不總是清楚誰正在組織開會,但這一次的會議目的則很清楚。
即便如此,他們需要采取的步驟仍不是完全清楚。“其中有很多不確定性 —— 整個過程的不確定性,”Schuster告訴我。“軟件,數(shù)據(jù),硬件,人。”他伸出他長而寬松的手臂,輕輕在肘部彎曲,“這就像在大海里游泳,你只能看到這遠。”他把他的手伸出到胸前8英寸那么遠。“目標(biāo)在某處,或許它就在那里。”
大多數(shù)Google的會議室都配有視頻會議顯示器,當(dāng)閑置時,會顯示極高分辨率的Google+照片,包括田園風(fēng)光、北極光或帝國議會大廈的照片。Schuster向其中一個屏幕打了個手勢,那個屏幕上正顯示著華盛頓紀(jì)念碑的夜間一瞬。
“外人會認(rèn)為,每個人都有雙筒望遠鏡,可以看到前方。”
讓他們到達此地的理論工作已經(jīng)用光,但要把它變成一個可行的產(chǎn)品 ——這被學(xué)術(shù)科學(xué)家稱為“純粹的”工程的部分——仍非常難。首先,他們需要確保他們在良好的數(shù)據(jù)上進行訓(xùn)練。 Google用來進行“閱讀”訓(xùn)練的數(shù)十億詞語料主要是由中等復(fù)雜性的完整句子組成,這些句子就像你可能在海明威作品里讀到的那些。其中一些是公共領(lǐng)域文獻,統(tǒng)計機器翻譯的最初語料是加拿大議會的數(shù)百萬頁完整雙語記錄。然而,它的大部分是從10年來由熱心者眾包的人類翻譯作品中篩選而來。該團隊的語料倉庫里有9700萬個互不相同的英語“詞”。但是一旦他們刪除了表情符號、拼寫錯誤和冗余,剩下的工作詞匯只有大約16萬。
而后,團隊必須重新去關(guān)注用戶實際想要翻譯哪些內(nèi)容,而這通常并非標(biāo)準(zhǔn)而合理的語言。谷歌發(fā)現(xiàn)很多人并不使用谷歌翻譯來翻譯完整、復(fù)雜的句子。他們用它來翻譯古怪的小碎片般的語言。如果你希望網(wǎng)絡(luò)能夠處理用戶查詢的數(shù)據(jù)流,你就必須確保能在這個方向上前進。神經(jīng)網(wǎng)絡(luò)對用于訓(xùn)練的數(shù)據(jù)非常敏感。正如Hughes向我提到的:“神經(jīng)翻譯系統(tǒng)正在學(xué)習(xí)一切。它就像一個孩子。”他笑道。“它會說,‘哦爸爸發(fā)瘋的時候才會這么說話!’你必須要小心。”
不管怎樣,他們需要確保整個事情快速可靠,從而不給用戶帶來困擾。在2月,神經(jīng)系統(tǒng)翻譯10個字的句子需要10秒鐘。公司不可能向用戶推出這么慢的東西。翻譯小組開始對一小部分用戶進行延遲實驗,假裝翻譯時間會延遲,以觀察用戶的忍耐程度。他們發(fā)現(xiàn),如果翻譯時間只延長了兩倍甚至五倍,便不會被用戶注意到。如果延長了八倍,就會被注意到。團隊不需要確保所有語言都是這樣。在(如法語或中文等)高流量語言的情況下,翻譯服務(wù)幾乎不會放慢速度。團隊想知道,對于那些更模糊的語言翻譯,用戶不會因為輕微的延遲而拒絕更好的翻譯質(zhì)量。他們希望能防止人們放棄使用翻譯、也防止人們轉(zhuǎn)去使用競爭對手的翻譯服務(wù)。
Schuster承認(rèn),他并不知道他們是否能夠使它變得足夠快。他記得在餐室中他曾對Chen說:“肯定有一些我們不知道的東西能使它變得足夠快,但我不知道它是什么。”
不過,他知道他們需要用更多的計算機——更多的圖形處理器來重新配置神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練。
Hughes去問Schuster的想法:“我們是不是應(yīng)該要求一千臺GPU?”
Schuster回答,“為什么不是2000臺?”
十天后,他們拿到了新加的2000個GPU處理器。
到4月份,原來的三人陣容已變成超過30人。其中一些人,如Le,來自Google Brain;也有許多人來自Google Translate。5月,Hughes為每對語言配置了一種臨時主管,每個主管都將進展結(jié)果錄入一個大型共享的績效評估電子表格。任何時候,都有至少20個人正在進行他們自己的獨立的、長達一周的實驗和處理意外問題。有一次某個模型開始毫無理由地把所有的數(shù)字從句子中剔除。經(jīng)過了幾個月才解決這個問題。“人們幾乎氣得要大吼。”舒斯特說。
到春季末期,各組的工作都聚集在一起。團隊引入了一些諸如“word-piece”模型,“coverage penalty”,“length normalization”之類的東西。Schuster說,每個部分都把結(jié)果改進了幾個百分點,但合起來它們有顯著的效果。一旦模型被標(biāo)準(zhǔn)化,它將是一個單一的多語言模型,將隨時間而改進,而不是目前使用的150個不同的翻譯模型。不過, 當(dāng)創(chuàng)造一個工具通過機器學(xué)習(xí)來實現(xiàn)普遍化時,實現(xiàn)自動化的過程總是需要超出尋常的人類天分和努力。這個項目也是如此:每層要多少神經(jīng)元?1024還是512?要多少層?一次運行多少句子?訓(xùn)練多久?很多決定都依賴內(nèi)心深處的直覺。
“我們做了數(shù)百次實驗,”Schuster告訴我,“直到有一天我們知道,我們可以在一個星期后停止訓(xùn)練。你總是會問:我們什么時候能停下來?我怎么知道我完成了?你永遠不知道你做完了。機器學(xué)習(xí)的機制從來不是完美的。你需要訓(xùn)練,在某些時候你必須停止。這是這個系統(tǒng)的一個非常令人痛苦的特質(zhì)。對一些人來說這很難。這是有點像藝術(shù) ,像用畫筆作畫。有些人做得更好,有些人做的比較糟。”
到5月份,Google Brain團隊了解到,他們唯一能夠使系統(tǒng)作為產(chǎn)品快速實現(xiàn)的方法是,在T.P.U.上運行Dean所要求的專用芯片。正如Chen所說:“我們甚至不知道代碼是否能工作。但是我們知道如果沒有T.P.U.,肯定是干不成的。”他記得,他們曾經(jīng)一個接一個地去向Dean請求,“請為我們保留一些T.P.U.的份額。”Dean為他們保留了份額。然而,T.P.U.無法順利工作。Wu花了兩個月坐在硬件團隊的人的旁邊,試圖找出這是為什么。他們不只是調(diào)試模型,他們也調(diào)試芯片。神經(jīng)翻譯項目將成為對這整個基礎(chǔ)設(shè)施投資概念的一個驗證。
6月的一個星期三,Quartz lake辦公室的會議上,人們對百度發(fā)表在領(lǐng)域核心期刊上的一篇文章議論紛紛。Schuster讓會議室恢復(fù)了秩序。 “是的,百度出了一篇新論文。感覺就像有人看透了我們做的東西——論文有類似的結(jié)構(gòu),類似的結(jié)果。”百度公司的BLEU分?jǐn)?shù)基本吻合Google在2月和3月內(nèi)部測試中取得的成績。Le并未感到不快。他的結(jié)論是,這是一個跡象,表明谷歌是在正確的軌道上。“這個系統(tǒng)與我們的系統(tǒng)非常相似。”他安靜地說。
Google團隊知道。如果他們早些時候發(fā)布了他們的結(jié)果,可能會打敗他們的競爭對手,但正如舒斯特所說:“啟動產(chǎn)品比發(fā)布論文更重要。人們會說,‘哦,這個發(fā)現(xiàn)是我先做到的。’但到了最后,誰會關(guān)心呢?”
然而,這確實要求他們必須更好地研發(fā)自己的翻譯服務(wù)。Hughes希望,他們甚至不用告訴用戶他們已經(jīng)更換了系統(tǒng)。他們只需等待,看看社交媒體是否會發(fā)現(xiàn)這些巨大的改進。
“我們不想說這是一個新的系統(tǒng),”他告訴我。勞動節(jié)之后第二天下午5:36,他們向10%的用戶推出了中文到英語的神經(jīng)翻譯服務(wù),沒有將切換告訴任何人。 “我們想確保它能行得通。最理想的情況是,它在Twitter上引起了爆炸:‘你看過谷歌翻譯有多棒嗎?’”
8. 慶祝
在缺乏季節(jié)感的硅谷,只有兩個感知季節(jié)的方法,一是小廚房里水果的變化——仲夏時期是杏李,早秋換成梨和柿子——二是技術(shù)進步的曲折。9月下旬一個天氣溫暖得讓人不自在的周一下午,團隊的論文終于發(fā)布了。論文有31位作者。第二天,谷歌大腦和翻譯團隊的成員們聚在一起,在翻譯部門的小廚房開了一個小小的慶祝會。
夏威夷風(fēng)格的小廚房的一面墻是一幅有紋理的海灘照片,以及一個小小的裝飾著花環(huán)的茅草屋似的服務(wù)臺,中間有一只毛絨鸚鵡,天花板上掛著紙燈籠一樣的裝飾。那天早上,他們慶祝翻譯團隊成立十周年,有許多已經(jīng)在新部門的前團隊成員過去了。某種程度上,他們也是慶祝十年的合作努力,在那一天終于得以中途休息。兩個團隊的工程師和計算機科學(xué)家們似乎都很高興。
“這就像在泥海里游泳,目之所及只有這么遠。”Schuster伸手在胸前比劃了大約8英寸。
谷歌的神經(jīng)翻譯終于成功了。在慶祝會之前,團隊已經(jīng)測試了1800萬條漢英翻譯。翻譯團隊的一位工程師拿著手機到處跑,試圖用百度翻譯測試漢英整句翻譯。任何人聽他講話他都很高興。他說:“如果同時輸入兩個以上的字符,它就會超時!”(百度說從來沒有用戶報告過這個問題。)
消息傳得很快,接下來的幾周,谷歌已經(jīng)將神經(jīng)翻譯引入到谷歌翻譯的中譯英。有些人猜測這是谷歌取得好結(jié)果的唯一的語言對。但當(dāng)時慶祝會上的每個人都已經(jīng)知道,他們所取得的成就將在11月公之于眾。不過到那時,團隊的許多人可能已經(jīng)進入其他項目。
Hughes清了清嗓子,走進這間夏威夷風(fēng)情的小酒吧。他穿著一件褪色的綠色polo衫,領(lǐng)子有點皺,腹部位置染上了暗色的汗?jié)n。他說,最后有一個問題,然后是最最后還有一個問題,說了論文中存在的一個嚴(yán)重的測試誤差,以及系統(tǒng)中有一個奇怪的與符號有關(guān)的bug。但一切都解決了,或者至少是暫時已經(jīng)解決了。慶祝會上人們都安靜了。Hughes開會非常高效,他對嘮嘮叨叨或者一面之詞的容忍度很低,但場面的嚴(yán)肅讓他停下來。他承認(rèn)他可能是在比喻,但他認(rèn)為強調(diào)事實很重要,他說,神經(jīng)翻譯項目本身就是“使用不同語言的團隊成員之間的合作”。
他繼續(xù)說道,神經(jīng)翻譯項目是一個“向前的階躍”,即一種并不連續(xù)的進步,是垂直的飛躍,而不是平滑曲線式的進步。與翻譯相關(guān)的不只是兩個團隊之間的合作,而且是從理論到現(xiàn)實的實現(xiàn)。他舉起香檳:
“為了溝通,”他說,“以及合作!”
工程師們聚在一起,互相看看,發(fā)出略顯慎重的歡呼聲和掌聲。
Jeff Dean與Corrado和Schuster一起站在小廚房的中央,他的手插在口袋里,肩膀微微內(nèi)聳。Dean注意到他的在場令氣氛有些凝重,他以非常有他的特點的低調(diào)方式,輕快、簡潔地補充了一句。
他說,他們同時做成了兩件事:“做研究,以及,我估計,在5億人之前做成了。”
大家都笑了,不是因為這句話夸張了,而是因為它一點也不夸張。
結(jié)語:會說話的機器
也許歷史上最有名的對人工智能的批判,或者說是以它的名義的斷言,即暗示了翻譯的問題。1980年伯克利哲學(xué)家John Searle提出“中文房間”(Chinese Room)實驗,借以反駁強人工智能的觀點。在Searle的思想實驗中,一個對漢語一竅不通,只說英語的人被關(guān)在一間只有一個開口的封閉房間中。房間里有一本用英文寫成的手冊,指示該如何處理收到的漢語訊息及如何用漢語相應(yīng)地回復(fù)。房外的人不斷向房間內(nèi)遞進用中文寫成的問題。房內(nèi)的人便按照手冊的說明,查找到合適的指示,將相應(yīng)的中文字符組合成對問題的解答,并將答案遞出房間。房內(nèi)的人很快就熟悉手冊指示的內(nèi)容,他的答案也很快變得“與中文母語者的難以區(qū)分”。難道房內(nèi)的人“理解”了中文嗎?Searle認(rèn)為顯然不是。
在上述過程中,房外人的角色相當(dāng)于程序員,房中人相當(dāng)于計算機,而手冊則相當(dāng)于計算機程序:每當(dāng)房外人(程序員)給出一個輸入,房內(nèi)的人(計算機)便依照手冊(程序)給出一個答復(fù)(輸出)。而正如房中人不可能通過手冊理解中文一樣,計算機也不可能通過程序來獲得理解力。Searle后來寫道,這個計算機的隱喻,引出了這樣一種觀點:“有正確的輸入和輸出,并且被正確編程的數(shù)字計算機,將因此具有心智,正如人類具有心智一般。”
但即使像谷歌這樣龐大的創(chuàng)新機構(gòu)也將面臨這種自動化浪潮的威脅,一旦機器能夠從人類的話語學(xué)習(xí),即使是程序員這類的舒適工作都將受到威脅。
【編者按】本文轉(zhuǎn)自新智元。文章來源:NYT,作者:Gideon Lewis-Kraus,編譯:胡祥杰、王楠、朱煥、劉小芹。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅(qū)動創(chuàng)新
