從算法、硬件到研究社區(qū),全面回顧2016年機(jī)器學(xué)習(xí)領(lǐng)域主要進(jìn)展
人工智能圣杯雖然遙遠(yuǎn),但這并不妨礙機(jī)器學(xué)習(xí)繼續(xù)在2016年高歌猛進(jìn),其中,深度學(xué)習(xí)仍是最亮眼的明星。
人工智能圣杯雖然遙遠(yuǎn),但這并不妨礙機(jī)器學(xué)習(xí)繼續(xù)在2016年高歌猛進(jìn),其中,深度學(xué)習(xí)仍是最亮眼的明星。機(jī)器學(xué)習(xí)的重大進(jìn)展離不開三個(gè)核心內(nèi)容:算法(或軟件)、硬件和數(shù)據(jù)。本文僅從算法(或軟件)、硬件角度梳理2016年機(jī)器學(xué)習(xí)領(lǐng)域(主要是深度學(xué)習(xí))主要進(jìn)展??紤]到技術(shù)進(jìn)步離不開研究社區(qū)的協(xié)力與開放,本文第三部分也對(duì)2016年研究社區(qū)重大事件進(jìn)行了梳理。
一、算法(或軟件)
能夠自主學(xué)習(xí)的機(jī)器、人與機(jī)器的自然交流一直是我們追求的人工智能圣杯。2016年,GANs 以及深度強(qiáng)化學(xué)習(xí)取得的進(jìn)展讓人類距離自主學(xué)習(xí)機(jī)器又近了一步。NLP 領(lǐng)域里的一些重大進(jìn)展,比如機(jī)器翻譯,也使得人與機(jī)器的交流更加順暢。
1、生成模型
生成對(duì)抗網(wǎng)絡(luò)(GANs)讓我們距離無監(jiān)督學(xué)習(xí)圣杯又近了一步。有學(xué)者指出2016年是深度學(xué)習(xí)的分水嶺,這要?dú)w功于生成模型的突破性研究。
生成式對(duì)抗網(wǎng)絡(luò)早在2014年由 Ian Goodfellow 提出。2016年,GAN 開始顯示出真正潛力,進(jìn)展非常迅速,相繼出現(xiàn)了條件生成對(duì)抗網(wǎng)絡(luò)(Conditional Generative Adversarial Nets)和信息生成對(duì)抗網(wǎng)絡(luò)(InfoGAN),深度卷積生成對(duì)抗網(wǎng)絡(luò)(Deep Convolutional Generative Adversarial Network, DCGAN)等,更加優(yōu)化的 GAN 模型已經(jīng)解決了之前限制深度學(xué)習(xí)發(fā)展的一些難題。
InfoGAN 模型由 OpenAI 研究員在 8 月提出。InfoGAN 能夠以無監(jiān)督的方式生成包含數(shù)據(jù)集相關(guān)信息的表征。例如,當(dāng)被應(yīng)用于 MNIST 數(shù)據(jù)集的時(shí)候,它能夠在不需要人工標(biāo)記數(shù)據(jù)的情況下推斷出數(shù)字的類型(1、2、3……)、生成的樣本的轉(zhuǎn)動(dòng)(rotation)與寬度(width)。
GAN 的另一種延展是被稱為 Conditional GAN 的模型。這些模型能夠生成考慮了外部信息(類標(biāo)簽、文本、其它圖像)的樣本,并使用它來迫使 G 生成特定類型的輸出。
StackGAN。模型本質(zhì)就是 Conditional GAN,只不過它使用了兩層 Conditional GAN 模型,第一層模型 P(X1|z, c) 利用輸入的文字信息 c 生成一個(gè)較低分辨率的圖片。之后第二層模型 P(X|c,,X1) 基于第一層生成的圖片以及文字信息生成更加優(yōu)化的圖片。文中給出的實(shí)驗(yàn)效果非常的驚人,可以生成 256x256 的非常真實(shí)的圖片。
PPGN。GAN 不光自身有變種和優(yōu)化,也能被其它算法融合吸收,發(fā)揮強(qiáng)大效果。2016 NIPS 會(huì)前幾天發(fā)布的 Plug & Play Generative Networks(PPGN,即插即用生成網(wǎng)絡(luò))的最新進(jìn)展((Nguyen et al, 2016) 就是生成模型領(lǐng)域 State-of-the-art 論文。 PPGN是融合了包括 GAN 在內(nèi)的很多算法和技巧的新算法,整合了對(duì)抗訓(xùn)練、CNN 特征匹配、降噪自編碼、Langevin采樣等,它從 ImageNet 中生成了 227x227 的真實(shí)圖片,是目前在這個(gè)數(shù)據(jù)集上跑得最驚人的一套算法。PPGN 生成的圖像同類差異化大,可根據(jù)指定生成不同類別的圖像、多類化,生成的圖像清楚分辨率高。
WaveNet。2016年9月,谷歌 DeepMind 發(fā)布博客介紹他們?cè)谖谋巨D(zhuǎn)語(yǔ)音系統(tǒng)上取得的重大進(jìn)展。DeepMind 表示,他們最新的深度生成模型 WaveNet 將機(jī)器語(yǔ)音合成的表現(xiàn)與人類之間水平的差距至少縮減了 50%,也是目前文本到語(yǔ)音環(huán)節(jié)最好的深度生成模型。
計(jì)算機(jī)發(fā)出聲音,最常用的 TTS 方法可能是拼接式語(yǔ)音合成(Concatenative Synthesis),這種機(jī)械式方法使得計(jì)算機(jī)輸出音頻經(jīng)常產(chǎn)生語(yǔ)音毛刺、語(yǔ)調(diào)的詭異變化、甚至結(jié)巴,無法調(diào)整語(yǔ)音的強(qiáng)調(diào)性音節(jié)或情緒。另外一種方法是參數(shù)化方法,利用數(shù)學(xué)模型對(duì)已知的聲音進(jìn)行排列、組裝成詞語(yǔ)或句子來重新創(chuàng)造音頻,能讓機(jī)器輸出的音頻聽起來不那么機(jī)器化。這兩種技術(shù)的共同點(diǎn)是簡(jiǎn)單、機(jī)械地將語(yǔ)音片段拼接起來,而不是從零開始創(chuàng)造出整個(gè)音頻波形。
WaveNet 正是一種從零開始創(chuàng)造整個(gè)音頻波形輸出的技術(shù)。WaveNet 利用真實(shí)的人類聲音剪輯和相應(yīng)的語(yǔ)言、語(yǔ)音特征來訓(xùn)練其卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks),讓其能夠辨別這兩方面(語(yǔ)言和語(yǔ)音)的音頻模式。使用中,對(duì)WaveNet 系統(tǒng)輸入新的文本信息,也即相對(duì)應(yīng)的新的語(yǔ)音特征,WaveNet 系統(tǒng)會(huì)重新生成整個(gè)原始音頻波形來描述這個(gè)新的文本信息。
2016年,DeepMind 還發(fā)表了強(qiáng)大的圖像生成模型 PixelRNN (PixelRNN 利用 RNN 建模圖像像素關(guān)系,突破傳統(tǒng))、PixelCNN 以及視頻生成模型 VPN (Video Pixel Network) 。
2、深度強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)和使用深度神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)可以很漂亮地互相補(bǔ)充,強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)結(jié)合的方法出現(xiàn)強(qiáng)勁勢(shì)頭。
AlphaGo。2013年以來,DeepMind 團(tuán)隊(duì)相繼在 NIPS 和 Nature上發(fā)表了用深度強(qiáng)化學(xué)習(xí)玩 Atari 游戲的論文。2016年1月,DeepMind AlphaGo 在圍棋大戰(zhàn)中擊敗歐洲冠軍。一個(gè)多月后,AlphaGo 再次震驚世界:4比1擊敗了世界頂級(jí)圍棋選手李世石。
AlphaGo 使用深度卷積網(wǎng)絡(luò),將棋盤當(dāng)做一張 19×19 的輸入「圖像」(每個(gè)位置一個(gè)像素)進(jìn)行處理。網(wǎng)絡(luò)把當(dāng)前局面作為輸入,預(yù)測(cè)/采樣下一步的走棋,盡量讓機(jī)器落子向量接近人類高手的落子結(jié)果。但是,只用策略網(wǎng)絡(luò)(policy network)不行,因?yàn)椴呗跃W(wǎng)絡(luò)沒有價(jià)值判斷功能,加了搜索之后,計(jì)算機(jī)才有價(jià)值判斷的能力,因此,AlphaGo 綜合了深度神經(jīng)網(wǎng)絡(luò)和 MCTS 。AlphaGo 利用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,通過與自己對(duì)抗,逐步改善策略來挑選行動(dòng)(策略網(wǎng)絡(luò)),以評(píng)估誰將獲勝(價(jià)值網(wǎng)絡(luò),另一深度卷積網(wǎng)絡(luò))。價(jià)值網(wǎng)絡(luò)的作用是減少搜索的深度,所以,AlphaGO 搜索深度并不是特別深,它并不是一下子搜索出直達(dá)比賽末尾的300多步,而是搜索更少的步數(shù),比如20多步,并評(píng)估這些位置,而不是一路評(píng)估到底,看誰最終能贏。
AlphaGo 在蒙特卡洛樹搜索框架下,利用深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練和評(píng)估,實(shí)現(xiàn)巨大突破。在游戲上取得了不錯(cuò)的成果后,深度強(qiáng)化學(xué)習(xí)也逐漸被引入NLP領(lǐng)域,比如較為熱點(diǎn)的研究方向基于強(qiáng)化學(xué)習(xí)的文本生成技術(shù)(NLG)。另外,加州大學(xué)伯克利分校副教授 Pieter Abbeel 正在研究將深度強(qiáng)化學(xué)習(xí)應(yīng)用到機(jī)器人上,比如 BRETT 在學(xué)習(xí)提升自己在家務(wù)勞動(dòng)中的表現(xiàn)。
VIN。2016年 NIPS 最佳論文是一篇強(qiáng)化學(xué)習(xí)論文 Value iteration Network。這篇論文介紹了一個(gè)能學(xué)習(xí)設(shè)計(jì)策略,而不是完全被動(dòng)遵循策略的神經(jīng)網(wǎng)絡(luò)。同時(shí),這種新的強(qiáng)化學(xué)習(xí)觀并不是基于模型的(model-free)。VIN 的目的主要是解決深度強(qiáng)化學(xué)習(xí)泛化能力較弱的問題。傳統(tǒng)的深度強(qiáng)化學(xué)習(xí)(比如 deep Q-learning)目標(biāo)一般是采用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)一個(gè)從狀態(tài)(state)到?jīng)Q策(action)的直接映射。神經(jīng)網(wǎng)絡(luò)往往會(huì)記憶一些訓(xùn)練集中出現(xiàn)的場(chǎng)景。所以,即使模型在訓(xùn)練時(shí)表現(xiàn)很好,一旦我們換了一個(gè)與之前訓(xùn)練時(shí)完全不同的場(chǎng)景,傳統(tǒng)深度強(qiáng)化學(xué)習(xí)方法就會(huì)表現(xiàn)的比較差。
作者提出,不光需要利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)一個(gè)從狀態(tài)到?jīng)Q策的直接映射,還要讓網(wǎng)絡(luò)學(xué)會(huì)如何在當(dāng)前環(huán)境下做長(zhǎng)遠(yuǎn)的規(guī)劃(learn to plan),并利用長(zhǎng)遠(yuǎn)的規(guī)劃輔助神經(jīng)網(wǎng)絡(luò)做出更好的決策。
在文章中,我們提出了一種特殊的網(wǎng)絡(luò)結(jié)構(gòu)(value iteration module),這種結(jié)構(gòu)和經(jīng)典的規(guī)劃算法 value iteration 有著相同的數(shù)學(xué)表達(dá)形式。利用這種數(shù)學(xué)性質(zhì),VIN 將傳統(tǒng)的規(guī)劃算法(planning algorithm)嵌入了神經(jīng)網(wǎng)絡(luò),使得網(wǎng)絡(luò)具有長(zhǎng)期規(guī)劃的能力。
VIN 中所使用的特殊結(jié)構(gòu) value iteration module,在很多問題上都可以直接加入現(xiàn)有的強(qiáng)化學(xué)習(xí)框架,并用來改進(jìn)很多現(xiàn)有模型的泛化能力。
3、NLP 方面的重要進(jìn)展
實(shí)現(xiàn)人機(jī)流暢的交流需要解決一些問題,比如文本理解,問題回答以及機(jī)器翻譯等。
(1)機(jī)器翻譯
GNMT。2016年 9 月底,谷歌在 arXiv.org 上發(fā)表了論文Google`s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation,介紹了谷歌的神經(jīng)機(jī)器翻譯系統(tǒng)(GNMT),該系統(tǒng)實(shí)現(xiàn)了機(jī)器翻譯領(lǐng)域的重大突破。11 月,谷歌再發(fā)論文宣布了其在多語(yǔ)言機(jī)器翻譯上的突破:實(shí)現(xiàn)了 zero-shot 翻譯。
傳統(tǒng)統(tǒng)計(jì)機(jī)器翻譯(Statistical Machine Translation, SMT)技術(shù),SMT 方法的最大特點(diǎn)是基于數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方法,只要提供足夠數(shù)量的雙語(yǔ)句對(duì),在很短時(shí)間內(nèi)可以自動(dòng)構(gòu)建一套統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),翻譯性能超過基于規(guī)則的方法。2013年提出了神經(jīng)機(jī)器翻譯(Neural Machine Translation, NMT)技術(shù)。其思路與傳統(tǒng) SMT 方法完全不同,它采用神經(jīng)網(wǎng)絡(luò)直接實(shí)現(xiàn)兩個(gè)句子之間的自動(dòng)翻譯,完全沒有規(guī)則方法和 SMT 方法的從小片段組裝成大片段翻譯的過程。2014年,Cho 和 Sutskever 提出了 Encoder-Decoder 架構(gòu)的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)。2015年,Yoshua Bengio 團(tuán)隊(duì)進(jìn)一步加入了Attention 的概念。Bengio 團(tuán)隊(duì)的這個(gè)工作也奠定了后續(xù)很多NMT商業(yè)系統(tǒng)的基礎(chǔ),也包括 Google 這次發(fā)布的GNMT。GNMT 基本框架仍然是帶 Attention 模塊的 Encoder-Decoder。
盡管有這些進(jìn)步,但 NMT 的速度和準(zhǔn)確度還沒能達(dá)到成為 Google Translate 這樣的生產(chǎn)系統(tǒng)的要求。谷歌新論文描述了我們?cè)鯓涌朔俗?NMT 在非常大型的數(shù)據(jù)集上工作的許多挑戰(zhàn),以及谷歌如何打造了一個(gè)在速度和準(zhǔn)確度上都已經(jīng)足夠能為谷歌的用戶和服務(wù)帶來更好的翻譯的系統(tǒng)。
ByNet。DeepMind 提出了線性時(shí)間的神經(jīng)機(jī)器翻譯 ByNet。
我們提出了一種用于序列處理(sequence processing)的神經(jīng)架構(gòu)。ByteNet 是一種兩個(gè)擴(kuò)張的卷積神經(jīng)網(wǎng)絡(luò)(dilated convolutional neural networks)的堆疊;其中一個(gè)網(wǎng)絡(luò)用于編碼源序列(source sequence),另一個(gè)網(wǎng)絡(luò)用于解碼目標(biāo)序列(target sequence)——這個(gè)過程中目標(biāo)網(wǎng)絡(luò)動(dòng)態(tài)展開從而生成可變長(zhǎng)度輸出。ByteNet 有兩個(gè)核心特性:它在與序列長(zhǎng)度成線性的時(shí)間上運(yùn)行;它能保留序列的時(shí)間分辨率(temporal resolution)。ByteNet 解碼器在字符級(jí)的語(yǔ)言建模上獲得了頂尖水平,并超越了之前循環(huán)神經(jīng)網(wǎng)絡(luò)取得的最好結(jié)果。ByteNet 也在原始的字符級(jí)機(jī)器翻譯(raw character-level machine translation)上獲得了接近最好的神經(jīng)翻譯模型(運(yùn)行在二次時(shí)間(quadratic time)中)所能取得的頂尖表現(xiàn)。由 ByteNet 學(xué)習(xí)到的隱含架構(gòu)能反映出序列之間的預(yù)期對(duì)應(yīng)。
(2)文本理解
JMT。Salesforce 的 MetaMind (http://metamind.io/) 建立了一個(gè)叫做 Joint Many-Tasks(JMT)的模型,目標(biāo)是要?jiǎng)?chuàng)造出一個(gè)可以學(xué)習(xí)五個(gè)常見自然語(yǔ)言處理任務(wù)的模型:
詞性標(biāo)注(Part-of-speech tagging)。指對(duì)句子中的每個(gè)詞都指派一個(gè)合適的詞性,比如說名詞、動(dòng)詞、形容詞等。
詞塊分析(Chunking)。也叫做淺層句法分析(shallow parsing),其中涉及到很多任務(wù),像是尋找名詞和動(dòng)詞詞組等。
依存關(guān)系分析(Dependency parsing)。識(shí)別詞語(yǔ)之間的語(yǔ)法關(guān)系(比如說形容詞修飾名詞)。
語(yǔ)義相關(guān)度(Semantic relatedness)。衡量?jī)蓚€(gè)句子之前的語(yǔ)義相關(guān)程度,其結(jié)果是用一個(gè)實(shí)值分?jǐn)?shù)來表示的。
文字蘊(yùn)含(Textual entailment)。確定前提的句子是否包含一個(gè)表示假設(shè)的句子。可能出現(xiàn)的句子關(guān)系包括:蘊(yùn)含、矛盾 和中立。
這個(gè)模型背后的魔力就在于它是端對(duì)端訓(xùn)練的。也就是說,它能夠讓兩個(gè)不同層面的處理兵種,這樣淺層任務(wù)(不那么復(fù)雜的)可以得到改善,從深層(較復(fù)雜的任務(wù))中得出結(jié)論。我們之前的想法是只用淺層來改進(jìn)深層的任務(wù),而不是用其他的方式,所以這個(gè)采用不同的方式與之前的思路比較來說是一個(gè)新的想法。除了詞性標(biāo)注之外,這個(gè)模型在其他方面都取得了很好的成績(jī)。
(3)問題回答
DCN。MetaMind 同樣提出了稱之為 Dynamic Coattention Network (DCN) 的新模型來解決疑問解答問題,該模型建立在相當(dāng)直觀的思路之上。想象下給你了一篇長(zhǎng)文并問你一些問題,你是想先看文章再聽問題呢,還是更想先聽問題再開始閱讀文章?一般提前知道問題是怎么樣的就會(huì)知道看文章要注意些什么,如果不知道問題,那么你就會(huì)將你的注意力平均分配并記下每一點(diǎn)可能會(huì)被提問的細(xì)節(jié)。DCN 也是在做這樣一件事,首先它生成一個(gè)內(nèi)部表征,這個(gè)內(nèi)部表征是基于文本并且由系統(tǒng)將要回答的問題做為約束條件,然后就是按照可能的回答列表迭代,直到收斂到最后的回答。
(4)語(yǔ)音識(shí)別
2016年10月19日的一篇論文Achieving Human Parity in Conversational Speech Recognition中,微軟人工智能與研究部門的一個(gè)研究者和工程師團(tuán)隊(duì)報(bào)告他們的語(yǔ)音識(shí)別系統(tǒng)實(shí)現(xiàn)了和專業(yè)速錄員相當(dāng)甚至更低的詞錯(cuò)率(WER),達(dá)到了 5.9%,而上個(gè)月這一數(shù)字還是 6.3%。 5.9% 的詞錯(cuò)率已經(jīng)等同于人速記同樣一段對(duì)話的水平,而且這是目前行業(yè)標(biāo)準(zhǔn) Switchboard 語(yǔ)音識(shí)別任務(wù)中的最低記錄。這個(gè)里程碑意味著,一臺(tái)計(jì)算機(jī)在識(shí)別對(duì)話中的詞上第一次能和人類做得一樣好。
受到機(jī)器學(xué)習(xí)集成技術(shù)(machine learning ensemble techniques)的啟發(fā),該系統(tǒng)使用了一系列卷積和循環(huán)神經(jīng)網(wǎng)絡(luò)。I-vector 建模和 lattice-free MMI 訓(xùn)練為所有聲學(xué)模型架構(gòu)帶來了顯著的提升。使用了多個(gè)前向和反向運(yùn)行 RNNLM 的語(yǔ)言模型重新計(jì)分(Language model rescoring)與基于后驗(yàn)的詞系統(tǒng)結(jié)合為系統(tǒng)性能帶來了 20% 的增益。最好的單個(gè)系統(tǒng)使用 ResNet 架構(gòu)聲學(xué)模型和 RNNLM rescoring,在 NIST 2000 Switchboard 任務(wù)上實(shí)現(xiàn)了 6.9% 的詞錯(cuò)率。結(jié)合系統(tǒng)取得了 6.3% 的詞錯(cuò)率,代表了在這一基準(zhǔn)任務(wù)上對(duì)先前成果的改進(jìn)。
LipNet。來自牛津大學(xué)、Google DeepMind 和加拿大高等研究院(CIFAR)的研究人員發(fā)表了一篇具有重要價(jià)值的論文,提出了 LipNet——一種可以將可變長(zhǎng)度的視頻序列映射成文本的模型,其使用了時(shí)空卷積、一個(gè) LSTM 循環(huán)網(wǎng)絡(luò)和聯(lián)結(jié)主義的時(shí)間分類損失(connectionist temporal classification loss)。它是第一個(gè)將深度學(xué)習(xí)應(yīng)用于模型的端到端學(xué)習(xí)的模型,可以將說話者的嘴唇的圖像幀序列映射到整個(gè)句子上。這個(gè)端到端的模型在預(yù)測(cè)句子前不再需要將視頻拆分成詞。在 GRID 語(yǔ)料庫(kù)上,LipNet 實(shí)現(xiàn)了 93.4% 的準(zhǔn)確度,超過了經(jīng)驗(yàn)豐富的人類唇讀者和之前的 79.6% 的最佳準(zhǔn)確度,將自動(dòng)唇讀技術(shù)的前沿水平推進(jìn)到了前所未有的高度。在不久的將來,這一視頻識(shí)別應(yīng)用會(huì)非常有用。
4、可微神經(jīng)計(jì)算機(jī)
邁向通用人工智能的又一重要成果。除了深度強(qiáng)化學(xué)習(xí),DeepMind 另一重要研究領(lǐng)域是記憶(memory),特別是如何將神經(jīng)網(wǎng)絡(luò)的決策智能和有關(guān)復(fù)雜結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)、推理能力結(jié)合起來的難題。
2016年 10 月,DeepMind 在 Nature發(fā)表了一篇論文Hybrid computing using a neural network with dynamic external memory,該論文介紹了一種記憶增強(qiáng)式的神經(jīng)網(wǎng)絡(luò)(memory-augmented neural network)形式——被稱為可微神經(jīng)計(jì)算機(jī)(differentiable neural computer),研究表明其可以學(xué)習(xí)使用它的記憶來回答有關(guān)復(fù)雜的結(jié)構(gòu)化數(shù)據(jù)的問題,其中包括人工生成的故事、家族樹、甚至倫敦地鐵的地圖。研究還表明它還能使用強(qiáng)化學(xué)習(xí)解決塊拼圖游戲(block puzzle game)問題。
人工神經(jīng)網(wǎng)絡(luò)非常擅長(zhǎng)感官信號(hào)處理、序列學(xué)習(xí)和強(qiáng)化學(xué)習(xí),但由于缺乏外部記憶(external memory),它們?cè)诒碚髯兞亢蛿?shù)據(jù)結(jié)構(gòu)以及長(zhǎng)時(shí)間存儲(chǔ)數(shù)據(jù)上的能力卻很有限。這里我們介紹一種名叫可微神經(jīng)計(jì)算機(jī)(DNC: differentiable neural computer)的機(jī)器學(xué)習(xí)模型,該模型由一個(gè)可以讀寫外部記憶矩陣(external memory matrix)的神經(jīng)網(wǎng)絡(luò)構(gòu)成,這類似于傳統(tǒng)計(jì)算機(jī)中的隨機(jī)存取存儲(chǔ)器(RAM)。它既可以和傳統(tǒng)計(jì)算機(jī)一樣使用它的記憶(memory,注:對(duì)應(yīng)于傳統(tǒng)計(jì)算機(jī)的「內(nèi)存」)表征和操作復(fù)雜的數(shù)據(jù)結(jié)構(gòu),也能和神經(jīng)網(wǎng)絡(luò)一樣從數(shù)據(jù)中學(xué)習(xí)這么做的方法。當(dāng)使用監(jiān)督學(xué)習(xí)進(jìn)行訓(xùn)練時(shí),我們發(fā)現(xiàn) DNC 可以成功回答設(shè)計(jì)用來模仿自然語(yǔ)言中的推理和推斷問題的合成問題。我們表明 DNC 可以學(xué)習(xí)尋找特定點(diǎn)之間的最短路徑和推斷隨機(jī)生成的圖中所缺少的鏈接等任務(wù),然后還能將這些任務(wù)泛化到交通網(wǎng)和家族樹等特定的圖上。當(dāng)使用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練時(shí),DNC 可以完成移動(dòng)塊拼圖任務(wù),其中變化的目標(biāo)又符號(hào)的序列指定??偠灾?,我們的結(jié)果表明 DNC 有能力解決對(duì)沒有外部讀寫記憶的神經(jīng)網(wǎng)絡(luò)而言難以解決的復(fù)雜的結(jié)構(gòu)化任務(wù)。
5、深度學(xué)習(xí)與其他機(jī)器學(xué)習(xí)技術(shù)的融合
Deep Sequential Networks 與 side-information 結(jié)合起來以獲取更加豐富的語(yǔ)言模型。在 A Neural Knowledge Language Model 論文中,Bengio 的團(tuán)隊(duì)將知識(shí)圖譜和 RNNs 結(jié)合起來。
交流知識(shí)是語(yǔ)言的一個(gè)主要目的。但是,目前的語(yǔ)言模型在編碼或解碼知識(shí)的能力上還存在顯著的限制。這主要是因?yàn)樗鼈兪腔诮y(tǒng)計(jì)共現(xiàn)(statistical co-occurrences)獲取知識(shí)的,但大部分描述知識(shí)的詞基本上都不是被觀察到的命名實(shí)體(named entities)。在這篇論文中,我們提出了一種神經(jīng)知識(shí)語(yǔ)言模型(NKLM: Neural Knowledge Language Model ),該模型結(jié)合了知識(shí)圖譜提供的符號(hào)知識(shí)(symbolic knowledge)與 RNN 語(yǔ)言模型。在每一個(gè)時(shí)間步驟,該模型都能夠預(yù)測(cè)被觀察到的詞應(yīng)該是基于哪種事實(shí)。然后,就會(huì)從詞匯庫(kù)生成或從知識(shí)圖譜中復(fù)制出一個(gè)詞。我們?cè)谝粋€(gè)名叫 WikiFacts 的新數(shù)據(jù)集上訓(xùn)練和測(cè)試了這個(gè)模型。我們的實(shí)驗(yàn)表明,NKLM 能在生成遠(yuǎn)遠(yuǎn)更小量的未知詞的同時(shí)顯著提升困惑度(perplexity)。此外,我們發(fā)現(xiàn)其中被取樣的描述包含了曾在 RNN 語(yǔ)言模型中被用作未知詞的命名實(shí)體。
在 Contextual LSTM models for Large scale NLP Tasks 這篇研究中, Deepmind 提出了CLSTM (語(yǔ)境LSTM ,Contextual LSTM),是當(dāng)前 RNN LSTM 的延伸,將語(yǔ)境特征(比如 ,主題 topics )吸收進(jìn)了模型。另外,語(yǔ)言模型的注意力和記憶建模方面也很多有趣研究,比如 Ask Me Anything: Dynamic Memory Networks for NLP(ICML)。
二、硬件
隨著深度學(xué)習(xí)算法變得越來越復(fù)雜、所使用的數(shù)據(jù)集變得越來越大,對(duì)專用硬件的需求也正變得越來越大。2016 年,面向人工智能的平臺(tái)成了計(jì)算硬件開發(fā)的一個(gè)主要的新方向。這一年,除了英特爾和英偉達(dá)這兩家芯片巨頭在人工智能方向連綿不斷的高調(diào)動(dòng)作,掌握核心科技的創(chuàng)業(yè)公司也在盡力改變著市場(chǎng)格局(盡管其中大部分有潛力的都被收購(gòu)了),此外,就連谷歌這樣的互聯(lián)網(wǎng)也從中看到了發(fā)展的空間。
傳統(tǒng)芯片廠商方面,英偉達(dá)借助 GPU 和深度學(xué)習(xí)算法的高度契合而順勢(shì)發(fā)展,股價(jià)飛漲,可以說是 2016 年人工智能計(jì)算硬件領(lǐng)域的最大贏家??梢灶A(yù)見,英偉達(dá)將在整個(gè)2017年繼續(xù)占據(jù)主導(dǎo)地位,因?yàn)樗麄儞碛凶钬S富的深度學(xué)習(xí)生態(tài)系統(tǒng)。
體量更大的巨頭英特爾自然也不會(huì)等著這個(gè)新市場(chǎng)被競(jìng)爭(zhēng)對(duì)手占領(lǐng),而收購(gòu)似乎是個(gè)更快捷的追趕方法。2016 年,英特爾收購(gòu)了多家人工智能創(chuàng)業(yè)公司,其中包括計(jì)算機(jī)視覺創(chuàng)業(yè)公司 Movidius 和深度學(xué)習(xí)芯片創(chuàng)業(yè)公司 Nervana 等。到 11 月份,有了 Nervana 和 2015 年收購(gòu)的 FPGA 廠商 Altera 加持的英特爾公布了其人工智能路線圖,介紹了該公司在人工智能芯片市場(chǎng)上的公司戰(zhàn)略和產(chǎn)品生態(tài)系統(tǒng)。
另外順便一提,在這一領(lǐng)域存在感差很多的 AMD 在 2016 年年底也終于發(fā)力,宣布推出了其首款基于VEGA GPU 架構(gòu)的機(jī)器學(xué)習(xí)芯片。這款芯片的研發(fā)旨在大幅提升計(jì)算機(jī)在處理深度神經(jīng)網(wǎng)絡(luò)相關(guān)工作上的表現(xiàn),能夠更高效且更輕松執(zhí)行相關(guān)工作。新的 Radeon Instinct 加速芯片將給從事深度學(xué)習(xí)訓(xùn)練和推論的研究機(jī)構(gòu)更強(qiáng)勁的 GPU 來開展深度學(xué)習(xí)相關(guān)研究。
此外,高通在 2017 年年初的 CES 開幕之前披露了其最新的 Snapdragon 835 的相關(guān)信息,除了其它方面的性能提升,在機(jī)器學(xué)習(xí)方面,其新增的功能包括支持客戶生成神經(jīng)網(wǎng)絡(luò)層、同時(shí)還支持谷歌的機(jī)器學(xué)習(xí)架構(gòu) TensorFlow。高通表示,Hexagon 682是首個(gè)支持TensorFlow和Halide 架構(gòu)的移動(dòng) DSP。
另外,DSP 供應(yīng)商 CEVA、FPGA 供應(yīng)商 Xilinx 和處理器技術(shù)提供商 Imagination 等廠商也都已經(jīng)在機(jī)器學(xué)習(xí)領(lǐng)域進(jìn)行了布局。
互聯(lián)網(wǎng)巨頭似乎也從計(jì)算硬件領(lǐng)域發(fā)現(xiàn)了新的機(jī)會(huì)。2016 年 5 月,谷歌發(fā)布了一款新的定制化設(shè)計(jì)的芯片張量處理單元(TPU/Tensor Processing Unit),這款芯片是專門為基于谷歌已經(jīng)開源的 TensorFlow 機(jī)器學(xué)習(xí)框架而量身定制的。亞馬遜已經(jīng)宣布了他們的基于FPGA的云實(shí)例。這是基于Xilinx UltraScale +技術(shù),在單個(gè)實(shí)例上提供了6800個(gè)DSP片和64 GB內(nèi)存。微軟也通過 Project Catapult 表明了對(duì) FPGA 的支持。另外,這一年 IBM 在神經(jīng)形態(tài)計(jì)算上的進(jìn)展也得到了很大的關(guān)注,甚至可能預(yù)示著一種人工智能發(fā)展的新方向。
在這場(chǎng)競(jìng)賽中,創(chuàng)業(yè)公司也并未落后太遠(yuǎn)。該領(lǐng)域已經(jīng)流入了 5.89 億美元的風(fēng)險(xiǎn)投資和私募基金。前 NASA 局長(zhǎng)創(chuàng)建的 Knuedge 在銷聲十幾年后再次出現(xiàn)在大眾面前,宣布完成了 1 億美元的融資。Mobileye ,一家向?qū)汃R、沃爾沃、通用、特斯拉等汽車公司提供 ADAS 的公司在自動(dòng)駕駛汽車領(lǐng)域處于領(lǐng)導(dǎo)地位。Wave Computing、Kneron 以及中國(guó)的寒武紀(jì)和深鑒科技等公司都在努力開發(fā)自家的深度學(xué)習(xí)專用芯片平臺(tái)。而這些公司在 2016 年同樣也取得了相當(dāng)不俗的表現(xiàn),比如源自中科院計(jì)算機(jī)研究所的寒武紀(jì)就在 2016 年推出的寒武紀(jì) 1A 處理器,據(jù)稱這是世界首款商用深度學(xué)習(xí)專用處理器。
學(xué)術(shù)界也并未避開這一領(lǐng)域。最近,MIT 的研究人員展現(xiàn)了比手機(jī) GPU 快 10 倍的芯片 Eyeriss,能夠在手機(jī)本地運(yùn)行深度學(xué)習(xí)算法。
創(chuàng)業(yè)公司 投資方 產(chǎn)品描述
Mobileye(199 年)耶路撒冷, 5.15 億美元, IPO) Fidelity Investments, Goldman Sachs, Blackrock 為自動(dòng)駕駛汽車設(shè)計(jì)基于深度學(xué)習(xí)的計(jì)算機(jī)視頻 ASICs
Nervana Systems(2014 年,圣地亞哥,2400 萬美元,被英特爾收購(gòu)) In-Q-Tel, Lux Capital, Draper Fisher Jurvetson 為基于深度學(xué)習(xí)系統(tǒng)的芯片設(shè)計(jì)定制的 ASIC。
Knuedge(2005 年,圣地亞哥,1億美元,處于早期階段) 未知 為機(jī)器學(xué)習(xí)應(yīng)用和 HPC 數(shù)據(jù)中心設(shè)計(jì)神經(jīng)形態(tài)芯片。
Movidius(2005 年,圣馬特奧,8650 萬美元,E 輪) West Summit Capital, Robert Bosch Venture Capital 為 IoT 設(shè)備設(shè)計(jì)深度學(xué)習(xí)視覺處理芯片。
Teradeep(2014 年,圣克拉拉,未知,早期階段) Xilinx 科技公司合伙人 為 IoT 設(shè)計(jì)基于深度學(xué)習(xí)的嵌入式計(jì)算機(jī)視覺系統(tǒng)。
CoreViz(2014 年,帕羅奧圖,未知,早期階段) Graph Ventures 為數(shù)據(jù)中心、汽車、手機(jī)系統(tǒng)設(shè)計(jì)低能耗的視覺處理芯片。
創(chuàng)業(yè)公司一欄中的記錄方式為(創(chuàng)立年份、城市、融資、公司所處階段),該表只展示了一些主要的投資者。
三、研究社區(qū)
1、開放
世界上最大的科技公司,頂尖大學(xué)甚至 DARPA 都在開源他們的人工智能系統(tǒng)。
谷歌。2016年3月,谷歌宣布加入開放計(jì)算項(xiàng)目(Open Compute Project),通過這個(gè)項(xiàng)目,將其服務(wù)器和數(shù)據(jù)中心的解決方案開源。5月,谷歌開源最精確自然語(yǔ)言解析器 SyntaxNet。6月,新開源「寬度&深度學(xué)習(xí)」框架。8月,Google Research 發(fā)布博客稱開源了在 Annotated English Gigaword 上進(jìn)行新聞標(biāo)題生成任務(wù)的 TensorFlow 模型代碼。12月,谷歌開源了一款用于交互式可視化和高維數(shù)據(jù)分析的網(wǎng)頁(yè)工具 Embedding Projector,其作為 TensorFlow 的一部分,能帶來類似 A.I. Experiment 的效果。同時(shí),谷歌也在 projector.tensorflow.org 放出了一個(gè)可以單獨(dú)使用的版本,讓用戶無需安裝和運(yùn)行 TensorFlow 即可進(jìn)行高維數(shù)據(jù)的可視化。12月,谷歌還開源了機(jī)器閱讀理解數(shù)據(jù)集 MC-AFP。
Facebook。2016年6月,F(xiàn)acebook 發(fā)布最新開源 Torchnet工具包。這個(gè)工具包可快速建立有效且可重復(fù)使用的學(xué)習(xí)系統(tǒng),從而促進(jìn)深度學(xué)習(xí)協(xié)同發(fā)展,加速人工智能研究。Facebook 的圖像識(shí)別功能一直為人所贊嘆,也是一些專業(yè)人士介紹相關(guān)技術(shù)的范例。8月,F(xiàn)acebook 官方發(fā)布博客稱開源 DeepMask 分割構(gòu)架、SharpMask 分割精煉模塊、MultiPathNet 的代碼。FastText是 Facebook 開發(fā)的一款快速文本分類器,提供簡(jiǎn)單而高效的文本分類和表征學(xué)習(xí)的方法,性能比肩深度學(xué)習(xí)而且速度更快。8月,F(xiàn)acebook 官方博客發(fā)文稱開源 fastText。9月,F(xiàn)acebook 開源重磅項(xiàng)目 CommAI-env,一個(gè)開發(fā)基于通信的人工智能系統(tǒng)的平臺(tái)。12月,F(xiàn)acebook 宣布開源 TorchCraft,它在星際爭(zhēng)霸與深度學(xué)習(xí)環(huán)境 Torch 之間架起了一道橋梁。TorchCraft 可讓每個(gè)人編寫出星際爭(zhēng)霸人工智能玩家Bot。另外,F(xiàn)acebook 還開源了圍棋人工智能系統(tǒng)DarkForest。
微軟。2016年1月,微軟發(fā)布了深度學(xué)習(xí)工具包 CNTK。7月,微軟創(chuàng)建的 Malmo 項(xiàng)目將 Minecraft 作為高級(jí)人工智能研究的測(cè)試平臺(tái),在開源許可下開放給了 GitHub 上從新手到老手等所有程序員。在此之前,這一系統(tǒng)只對(duì)很少的計(jì)算機(jī)科學(xué)家開放過私人預(yù)覽,它被設(shè)計(jì)用于幫助研究者開發(fā)先進(jìn)的、更為普遍能做像學(xué)習(xí)、對(duì)話、決策以及完成復(fù)雜任務(wù)等工作的人工智能。這一系統(tǒng)將會(huì)幫助研究者們開發(fā)用于強(qiáng)化學(xué)習(xí)的新技術(shù)和新方法。目前微軟現(xiàn)在正努力讓 Malmo 可以在 Universe 中使用。10月,微軟開放了LightGBM(Light Gradient Boosting Machine),一個(gè)基于決策樹算法的快速的、分布式的、高性能 gradient boosting(GBDT、GBRT、GBM 或 MART)框架,可被用于排行、分類以及其他許多機(jī)器學(xué)習(xí)任務(wù)中。12月,微軟發(fā)布數(shù)據(jù)集MS MARCO。其背后的團(tuán)隊(duì)聲稱這是目前這一類別中最有用的數(shù)據(jù)集,因?yàn)檫@個(gè)數(shù)據(jù)集是基于匿名的真實(shí)數(shù)據(jù)構(gòu)建的。通過將該數(shù)據(jù)集免費(fèi)開放給更多的研究者,該團(tuán)隊(duì)希望能夠促進(jìn)機(jī)器閱讀領(lǐng)域的研究突破,就像之前研究者已經(jīng)在圖像識(shí)別和語(yǔ)音識(shí)別領(lǐng)域所取得顛覆性突破一樣。
谷歌、微軟、Facebook 等傳統(tǒng)的人工智能技術(shù)巨頭之外,百度近來也加入到了技術(shù)開源的浪潮之中。2016年1月,百度宣布開源人工智能代碼,百度硅谷實(shí)驗(yàn)室已經(jīng)向 GitHub 上傳了 Warp-CTC C 代碼庫(kù)。與此同時(shí),百度在一篇博客文章中鼓勵(lì)開發(fā)者試用這些代碼。繼 9月PaddlePaddle 之后,百度又宣布開源了一項(xiàng)深度學(xué)習(xí)基準(zhǔn) DeepBench。
2016年12月,DeepMind 開源3D人工智能訓(xùn)練平臺(tái)。DeepMind Lab 是一個(gè)類全3D游戲平臺(tái),為基于智能體的人工智能研究量身打造。和 Malmo 類似,也允許研究者創(chuàng)建迷宮,讓不同算法學(xué)習(xí)如何尋路,獲得獎(jiǎng)勵(lì)。DeepMind 正在嘗試將「更自然的元素」(如起伏的地形和植物)整加入到這個(gè)虛擬世界中。開源后,DeepMind 希望在其他研究者的幫助下,這個(gè)平臺(tái)能夠更加復(fù)雜,從而訓(xùn)練更聰明的訓(xùn)練算法。
兩天以后,OpenAI 發(fā)布了一個(gè)「元平臺(tái)」Universe。它允許人工智能程序在其中與最初為人類玩家設(shè)計(jì)的十幾款 3D 游戲互動(dòng),另外,這個(gè)環(huán)境還包含了一些網(wǎng)絡(luò)瀏覽器與手機(jī) app。相比 DeepMind Lab 的 3D 世界,OpenAI 的元平臺(tái) Universe則更進(jìn)一步。通過為同一個(gè)人工智能程序提供多種不同類型的環(huán)境,這一平臺(tái)或許可以解決領(lǐng)域內(nèi)最棘手的問題:如何創(chuàng)建一個(gè)可以解決任何新問題的算法。
大學(xué)方面。2016年9月,伯克利大學(xué)和 Adobe 在 Github 上開源了新的深度學(xué)習(xí)圖像編輯工具 iGAN。神經(jīng)機(jī)器翻譯是近段時(shí)間以來推動(dòng)機(jī)器翻譯發(fā)展的主要推動(dòng)力。2016年12月,哈佛大學(xué)自然語(yǔ)言處理研究組(Harvard NLP)宣布開源了其研發(fā)的神經(jīng)機(jī)器翻譯系統(tǒng) OpenNMT,該系統(tǒng)使用了 Torch 數(shù)學(xué)工具包。該研究組在官網(wǎng)上表示該系統(tǒng)已經(jīng)達(dá)到生產(chǎn)可用的水平(industrial-strength)。
DARPA 已經(jīng)向開源機(jī)器學(xué)習(xí)技術(shù)邁出了一大步。事實(shí)上,DARPA XDATA項(xiàng)目產(chǎn)生了一個(gè)目前最先進(jìn)的機(jī)器學(xué)習(xí)、可視化和其他技術(shù)的目錄,任何人都可以下載、使用和修改這些技術(shù)以打造定制化的人工智能工具。
下面簡(jiǎn)單列出了 2016 年最受歡迎的深度學(xué)習(xí)工具:
TensorFlow,來自谷歌,地址:https://github.com/tensorflow/tensorflow
Keras,來自 François Chollet,地址:https://github.com/fchollet/keras
CNTK,來自微軟,地址:https://github.com/Microsoft/CNTK
MXNet,來自 DMLC,被亞馬遜采用,地址:https://github.com/dmlc/mxnet
Theano,來自蒙特利爾大學(xué),地址:https://github.com/Theano/Theano
Torch,來自 Ronan Collobert, Koray Kavukcuoglu, Clement Farabet,被 Facebook 廣泛使用,地址:https://github.com/torch/torch7
2、合作
OpenAI 是一個(gè)非營(yíng)利性組織,它旨在建立學(xué)界和工業(yè)界之間的合作關(guān)系,并將其研究結(jié)果免費(fèi)公開。OpenAI 在 2015 年建立,并在 2016 年開始發(fā)表它的研究結(jié)果(通過 InfoGAN 出版物、Universe 平臺(tái)、this one 會(huì)議)。OpenAI 的目標(biāo)就是確保人工智能技術(shù)對(duì)盡可能多的人來說都是可行的,并且防止出現(xiàn)超人工智能。
另一方面,亞馬遜、DeepMind、谷歌、Facebook、IBM 和微軟還在人工智能之上達(dá)成了一項(xiàng)合作,其目標(biāo)是提升公眾對(duì)這一領(lǐng)域的理解、支持最佳的實(shí)踐和為討論和參與開發(fā)一個(gè)開放的平臺(tái)。
另外,Yoshua Bengio 新書《Deep Learning》中文版已經(jīng)發(fā)布,該書由北京大學(xué)張志華老師團(tuán)隊(duì)負(fù)責(zé)翻譯。2016年6月,吳恩達(dá)宣布開放訂閱自己的新書《machine learning yearning》。后來,吳恩達(dá)推特發(fā)文稱已經(jīng)郵件發(fā)送了該書的前12個(gè)章節(jié)。
最后,記得關(guān)注微信公眾號(hào):鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新
