專訪中國人民大學(xué)盧志武教授:AI的新突破,或從“文瀾”開始
圖靈測試,或許不再遙遠(yuǎn)。
圖 | 盧志武教授
I propose to consider the question, ‘Can machines think?’
——A.M.Turing
1950年秋天,被后人譽為“人工智能之父”的阿蘭·圖靈,在其著作《Computing Machinery and Intelligence》的開篇,拋出了這個在當(dāng)時似乎是“異想天開”的問題。也同樣是在這篇文章中,圖靈提出一個甚至比“人工智能(Artificial Intelligence,簡稱AI)”更早出現(xiàn)的概念——圖靈測試。由此拉開了,人類對AI這一領(lǐng)域艱辛探索的序幕。
時光荏苒,斗轉(zhuǎn)星移。70余年過去,已歷經(jīng)三次發(fā)展浪潮的AI,正悄然以各種面貌進(jìn)入我們普通人的日常生活之中。人臉識別、輔助駕駛、智能醫(yī)學(xué)影像等應(yīng)用正逐漸成為人類社會中“習(xí)以為常”的一部分,這得益于AI技術(shù)的不斷成熟。而在這背后,是學(xué)界、業(yè)界乃至各個國家對AI研發(fā)的不斷投入。目前,全球各國對于AI的研發(fā),已漸成“競賽”之勢。但要真正通過“圖靈測試”,還尚無國家能夠做到。
6月1日,在2021北京智源大會上,超大規(guī)模智能模型“悟道2.0”正式發(fā)布。其憑借1.75萬億的參數(shù)量,創(chuàng)下了全球最大預(yù)訓(xùn)練語言模型記錄,成功向世界展示了中國的AI技術(shù)實力。據(jù)悉,“悟道2.0”分別由文源、文瀾、文匯、文朔四大預(yù)訓(xùn)練模型組成。
在這其中,以語義理解、視覺-語言檢索等能力見長的“文瀾”引起了鎂客網(wǎng)極大的興趣。據(jù)悉,文瀾對語義信息的理解能力之強已經(jīng)達(dá)到世界“領(lǐng)跑”水平,堪稱是世界AI領(lǐng)域中突破性的進(jìn)展。其能力可擴(kuò)展性強,可以落地應(yīng)用在多種場景。通過對文瀾的研究,人類與似乎遙不可及的“圖靈測試”又近了一步。文瀾研發(fā)團(tuán)隊是由中國人民大學(xué)高瓴人工智能學(xué)院執(zhí)行院長文繼榮教授所領(lǐng)導(dǎo),并與北京智源人工智能研究院緊密合作。
通過努力,我們很榮幸地采訪到了文瀾研發(fā)團(tuán)隊的模型組負(fù)責(zé)人——中國人民大學(xué)高瓴人工智能學(xué)院的盧志武教授,和他一起聊了聊AI的未來和文瀾背后的故事。
AI發(fā)展?jié)u入瓶頸,文瀾領(lǐng)銜的多模態(tài)預(yù)訓(xùn)練模型,或成“破局”關(guān)鍵
眾所周知,人工智能的終極目標(biāo),就是讓機器擁有和人一樣的理解與思考能力。但70多年過去了,距離這個目標(biāo),仍有著不小的距離。
而對學(xué)界來說,盡管當(dāng)下許多AI技術(shù)已經(jīng)可以對人類生活產(chǎn)生積極的影響,但從大趨勢來看,AI研發(fā)似乎正走到了一個“瓶頸期”。學(xué)界和業(yè)界,都需要在技術(shù)上發(fā)現(xiàn)一個新的”爆點”,來刺激整個AI產(chǎn)業(yè)繼續(xù)向前跨越式地發(fā)展。
也就是在這種情況下,“文瀾”誕生了。
盧志武教授告訴記者,“任何AI的模型到最后其實都是個神經(jīng)網(wǎng)絡(luò)。在過去,業(yè)內(nèi)常常使用純文本或者純圖像的模式對AI進(jìn)行單模態(tài)訓(xùn)練。但現(xiàn)在看來,其效果不是特別有效。”
隨著學(xué)術(shù)上的發(fā)展,文瀾團(tuán)隊開始把目光轉(zhuǎn)向同時使用圖文數(shù)據(jù)對進(jìn)行預(yù)訓(xùn)練,期望以此能挖掘AI新的潛能。而在此之前,這個方向上還沒有較為成功的案例。
為了獲得較好的效果,文瀾1.0和2.0版本所使用的訓(xùn)練數(shù)據(jù)從3000萬升級到了6.5億未標(biāo)注圖文數(shù)據(jù)。巨大的數(shù)據(jù)量在進(jìn)行模型訓(xùn)練時非常困難,但這也給文瀾擁有強大的視覺-語言檢索能力和一定的常識理解能力打下了基礎(chǔ)。
在訓(xùn)練方式上,文瀾研發(fā)團(tuán)隊采用了高效的分布式多模態(tài)預(yù)訓(xùn)練框架,提出基于DeepSpeed的多模態(tài)預(yù)訓(xùn)練算法,從而最大化地利用GPU和CPU,并最優(yōu)地支持跨模態(tài)對比學(xué)習(xí)。
目前,國外頂級AI研發(fā)機構(gòu) Google 和OpenAI 也正在嘗試文瀾團(tuán)隊的研究方向,其項目名分別為 Google ALIGN和OpenAI CLIP,但在與這兩者進(jìn)行圖文互檢能力的嚴(yán)格公平比較時,文瀾明顯要更勝一籌,可以說,目前的文瀾,在圖文互檢和語義理解方面都達(dá)到了世界最頂級的水平。
那么,文瀾可以應(yīng)用在何處?盧志武教授告訴記者,現(xiàn)在的文瀾,就像“大腦”一樣,適應(yīng)力強,可以應(yīng)用在多個場景下。以其擅長之一的“檢索和推薦”能力舉例,電商、游戲、視頻中的多個細(xì)分行業(yè)的常見業(yè)務(wù)場景中,文瀾都能“得心應(yīng)手”。
盧志武教授表示“如果說過去我們了解到的AI,其理解力還只是個小孩的話,現(xiàn)在的文瀾,已經(jīng)越來越有可能接近一個成人”。
探索AI“潛意識”,“圖靈測試”得以見到更多曙光
文瀾的能力之強已經(jīng)毋庸置疑。但對于文瀾開發(fā)團(tuán)隊來說,在海量的圖文數(shù)據(jù)訓(xùn)練后,文瀾是否真正學(xué)到了語義信息,以及文瀾的理解能力究竟有多強,成為了極具吸引力的問題。
為此,文瀾研發(fā)團(tuán)隊決定用“神經(jīng)元可視化”的方式對文瀾進(jìn)行測試。你可以簡單理解為這是一場“命題繪畫”的測驗。我們告知文瀾一句有實際意義的話,讓文瀾用圖片的形式反饋出她對這句話的理解。
但請注意,這里的圖片反饋,絕非是從文瀾已有的圖片數(shù)據(jù)中匹配最優(yōu)解,也不是像某些AI繪畫模型那樣對特定訓(xùn)練數(shù)據(jù)的模仿。
此時的文瀾,更像是一個‘“普通人”,借助自己已有的知識,來嘗試?yán)斫馔饨鐐鬟f進(jìn)來的新信息,并以圖畫的形式來“具象”出自己的理解,反應(yīng)的是文瀾“腦海”里的客觀存在。
盧志武老師表示“(通過這種方式)我們將文瀾的“潛意識”,也即她腦海中最原始的對一句話的想象與理解給可視化出來。”
那文瀾具體是怎么畫的呢?簡單來說,我們都知道在計算機上,圖片是由一個個像素點組成,通過改變每個像素點的顏色,就可以在計算機上進(jìn)行繪畫。而拿到文本信息的文瀾,就是通過這種方法進(jìn)行“原創(chuàng)繪畫”,把她所理解的我們所給出語句的意思,用圖畫表示出來。此時的文瀾可以比喻為一個天平,天平的兩端分別是圖像和文本,而文瀾要做的就是讓兩者的意義“保持對等”。值得注意的是,在神經(jīng)元可視化時,文瀾所有模型參數(shù)都是固定不變的,只是去修改輸入的初始噪聲圖像。
文瀾研發(fā)團(tuán)隊表示:“通過這種方式,我們得以一窺文瀾的“內(nèi)心世界”。也就是放開所有評測和應(yīng)用對文瀾的限制,讓她能夠展現(xiàn)最原始的、最真實的、她“潛意識”里對于輸入文本的獨特理解。”
目前根據(jù)文瀾的“畫作”來看,其對語義的理解能力已經(jīng)位居世界前列。除了日常用語,文瀾同樣能理解古詩詞,甚至可以傳遞出一定的“意境”。
以下是文瀾在實際測試中的部分樣例(文瀾研發(fā)團(tuán)隊提供):
給文瀾的語句:對著生日蛋糕許愿
(解讀:蛋糕的形象非常清晰,還有一根蠟燭,蛋糕上也有星星點點的點綴,整體是生日派對的歡快氛圍。)
給文瀾的語句:白日依山盡,黃河入海流
(解讀:遠(yuǎn)處山峰遮擋了落下的太陽但沒有遮住余暉,近處則如黃河向我們奔來。)
給文瀾的語句:月落烏啼霜滿天,江楓漁火對愁眠
(解讀:江面上紅色的火光,近處的烏篷船。)
給文瀾的語句:江南可采蓮,蓮葉何田田
(解讀:左上含苞待放的蓮花,右側(cè)中間的蓮蓬,片片蓮葉和整體的綠色。)
給文瀾的語句:海上生明月,天涯共此時
(解讀:下方帶著波浪的海,海面上正在升起的月亮。雖然詩句中原意是滿月,但是字面上并沒有表達(dá)滿月的意思。背景的大片抽象或許是文瀾對“天涯共此時”的理解。)
前瞻與堅持讓文瀾“橫空出世” ,多元和交叉將成為AI浪潮新起點
對科研來說,正確的判斷與堅持,有時要比勤奮和努力更為重要。當(dāng)聊起文瀾的研發(fā)過程時,盧教授對此深有感觸。
自去年9月份開始,文瀾團(tuán)隊就開始進(jìn)行多模態(tài)預(yù)訓(xùn)練的工作。想起當(dāng)時的過程,盧教授形容到:“完全是在黑暗中摸索,并且多模態(tài)預(yù)訓(xùn)練模型非常難做,但還是果斷地沿著這條路(圖文弱相關(guān)+雙塔模型)走了下來。”
但探索和堅持是有風(fēng)險的,在此期間,盧教授與其所帶的博士生們?nèi)硇牡赝度氲搅诉@個項目上,并因此很長時間都沒有發(fā)表論文。如果方向錯了,或者沒有把模型訓(xùn)練好,都將會是一個“顆粒無收”的結(jié)果。這對整個團(tuán)隊的壓力,可想而知。
而幾乎是同時,國外AI界的領(lǐng)跑者:谷歌和OpenAI,也正在做類似的事情。并在今年1月份,OpenAI發(fā)布了兩個與文瀾在方向上類似的模型:DALL-E和CLIP。震撼業(yè)內(nèi)的同時,也側(cè)面證明了盧教授團(tuán)隊的選擇是正確并富有前瞻性的。
不過,從國內(nèi)高校學(xué)術(shù)研究的偏向來看,清北等高校似乎在AI方面更有優(yōu)勢。為何此次在AI領(lǐng)域做出突破性進(jìn)展的卻是人大?
盧志武教授認(rèn)為,人大的優(yōu)勢在于學(xué)術(shù)氛圍的寬松和富有底蘊的人文思想。
“我們高瓴人工智能學(xué)院的文繼榮院長,非常支持去做這些有價值的探索。所以我們整體的學(xué)術(shù)氛圍還是非常寬松和開放的。”
除此之外,作為以人文社科見長的高等學(xué)府,人大對AI自有其獨特的理解方式。某種意義上,針對當(dāng)前流行的工具理性來說,人大更趨向于價值理性。這也是文瀾團(tuán)隊能夠冒著“顆粒無收”的風(fēng)險,堅持完成研究的原因之一。
而在鎂客網(wǎng)看來,除了人大所特有的優(yōu)勢以外,文瀾的成功與盧志武教授所擁有的對AI發(fā)展的前瞻性,和整個文瀾研發(fā)團(tuán)隊的優(yōu)秀能力同樣密不可分。
漫漫AI探索路上,“破”與“立”是永恒的話題。盡管文瀾已經(jīng)做出了突破性的成績,盧志武教授仍謙虛地表示,從總體上看,AI未來的發(fā)展,依然需要像腦科學(xué)、神經(jīng)科學(xué)等相關(guān)交叉學(xué)科的共同進(jìn)步。不過,道阻且長,行則將至。我們相信,在文瀾這個成功案例的帶動下,未來中國可以涌現(xiàn)出更多的“文瀾”,從而能夠更快一步地摘下“圖靈測試”這座AI的皇冠。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅(qū)動創(chuàng)新
