從算法、硬件到研究社區(qū),全面回顧2016年機器學習領域主要進展

鎂客 9年前 (2017-02-03)

人工智能圣杯雖然遙遠,但這并不妨礙機器學習繼續(xù)在2016年高歌猛進,其中,深度學習仍是最亮眼的明星。

人工智能圣杯雖然遙遠,但這并不妨礙機器學習繼續(xù)在2016年高歌猛進,其中,深度學習仍是最亮眼的明星。機器學習的重大進展離不開三個核心內(nèi)容:算法(或軟件)、硬件和數(shù)據(jù)。本文僅從算法(或軟件)、硬件角度梳理2016年機器學習領域(主要是深度學習)主要進展??紤]到技術(shù)進步離不開研究社區(qū)的協(xié)力與開放,本文第三部分也對2016年研究社區(qū)重大事件進行了梳理。

一、算法(或軟件)

能夠自主學習的機器、人與機器的自然交流一直是我們追求的人工智能圣杯。2016年,GANs 以及深度強化學習取得的進展讓人類距離自主學習機器又近了一步。NLP 領域里的一些重大進展,比如機器翻譯,也使得人與機器的交流更加順暢。

1、生成模型

生成對抗網(wǎng)絡(GANs)讓我們距離無監(jiān)督學習圣杯又近了一步。有學者指出2016年是深度學習的分水嶺,這要歸功于生成模型的突破性研究。

生成式對抗網(wǎng)絡早在2014年由 Ian Goodfellow 提出。2016年,GAN 開始顯示出真正潛力,進展非常迅速,相繼出現(xiàn)了條件生成對抗網(wǎng)絡(Conditional Generative Adversarial Nets)和信息生成對抗網(wǎng)絡(InfoGAN),深度卷積生成對抗網(wǎng)絡(Deep Convolutional Generative Adversarial Network, DCGAN)等,更加優(yōu)化的 GAN 模型已經(jīng)解決了之前限制深度學習發(fā)展的一些難題。

InfoGAN 模型由 OpenAI 研究員在 8 月提出。InfoGAN 能夠以無監(jiān)督的方式生成包含數(shù)據(jù)集相關信息的表征。例如,當被應用于 MNIST 數(shù)據(jù)集的時候,它能夠在不需要人工標記數(shù)據(jù)的情況下推斷出數(shù)字的類型(1、2、3……)、生成的樣本的轉(zhuǎn)動(rotation)與寬度(width)。

GAN 的另一種延展是被稱為 Conditional GAN 的模型。這些模型能夠生成考慮了外部信息(類標簽、文本、其它圖像)的樣本,并使用它來迫使 G 生成特定類型的輸出。

StackGAN。模型本質(zhì)就是 Conditional GAN,只不過它使用了兩層 Conditional GAN 模型,第一層模型 P(X1|z, c) 利用輸入的文字信息 c 生成一個較低分辨率的圖片。之后第二層模型 P(X|c,,X1) 基于第一層生成的圖片以及文字信息生成更加優(yōu)化的圖片。文中給出的實驗效果非常的驚人,可以生成 256x256 的非常真實的圖片。

PPGN。GAN 不光自身有變種和優(yōu)化,也能被其它算法融合吸收,發(fā)揮強大效果。2016 NIPS 會前幾天發(fā)布的 Plug & Play Generative Networks(PPGN,即插即用生成網(wǎng)絡)的最新進展((Nguyen et al, 2016) 就是生成模型領域 State-of-the-art 論文。 PPGN是融合了包括 GAN 在內(nèi)的很多算法和技巧的新算法,整合了對抗訓練、CNN 特征匹配、降噪自編碼、Langevin采樣等,它從 ImageNet 中生成了 227x227 的真實圖片,是目前在這個數(shù)據(jù)集上跑得最驚人的一套算法。PPGN 生成的圖像同類差異化大,可根據(jù)指定生成不同類別的圖像、多類化,生成的圖像清楚分辨率高。

WaveNet。2016年9月,谷歌 DeepMind 發(fā)布博客介紹他們在文本轉(zhuǎn)語音系統(tǒng)上取得的重大進展。DeepMind 表示,他們最新的深度生成模型 WaveNet 將機器語音合成的表現(xiàn)與人類之間水平的差距至少縮減了 50%,也是目前文本到語音環(huán)節(jié)最好的深度生成模型。

計算機發(fā)出聲音,最常用的 TTS 方法可能是拼接式語音合成(Concatenative Synthesis),這種機械式方法使得計算機輸出音頻經(jīng)常產(chǎn)生語音毛刺、語調(diào)的詭異變化、甚至結(jié)巴,無法調(diào)整語音的強調(diào)性音節(jié)或情緒。另外一種方法是參數(shù)化方法,利用數(shù)學模型對已知的聲音進行排列、組裝成詞語或句子來重新創(chuàng)造音頻,能讓機器輸出的音頻聽起來不那么機器化。這兩種技術(shù)的共同點是簡單、機械地將語音片段拼接起來,而不是從零開始創(chuàng)造出整個音頻波形。

WaveNet 正是一種從零開始創(chuàng)造整個音頻波形輸出的技術(shù)。WaveNet 利用真實的人類聲音剪輯和相應的語言、語音特征來訓練其卷積神經(jīng)網(wǎng)絡(convolutional neural networks),讓其能夠辨別這兩方面(語言和語音)的音頻模式。使用中,對WaveNet 系統(tǒng)輸入新的文本信息,也即相對應的新的語音特征,WaveNet 系統(tǒng)會重新生成整個原始音頻波形來描述這個新的文本信息。

2016年,DeepMind 還發(fā)表了強大的圖像生成模型 PixelRNN (PixelRNN 利用 RNN 建模圖像像素關系,突破傳統(tǒng))、PixelCNN 以及視頻生成模型 VPN (Video Pixel Network) 。

2、深度強化學習

強化學習和使用深度神經(jīng)網(wǎng)絡的深度學習可以很漂亮地互相補充,強化學習與深度學習結(jié)合的方法出現(xiàn)強勁勢頭。

深度 | 從算法、硬件到研究社區(qū),全面回顧2016年機器學習領域主要

AlphaGo。2013年以來,DeepMind 團隊相繼在 NIPS 和 Nature上發(fā)表了用深度強化學習玩 Atari 游戲的論文。2016年1月,DeepMind AlphaGo 在圍棋大戰(zhàn)中擊敗歐洲冠軍。一個多月后,AlphaGo 再次震驚世界:4比1擊敗了世界頂級圍棋選手李世石。

AlphaGo 使用深度卷積網(wǎng)絡,將棋盤當做一張 19×19 的輸入「圖像」(每個位置一個像素)進行處理。網(wǎng)絡把當前局面作為輸入,預測/采樣下一步的走棋,盡量讓機器落子向量接近人類高手的落子結(jié)果。但是,只用策略網(wǎng)絡(policy network)不行,因為策略網(wǎng)絡沒有價值判斷功能,加了搜索之后,計算機才有價值判斷的能力,因此,AlphaGo 綜合了深度神經(jīng)網(wǎng)絡和 MCTS 。AlphaGo 利用強化學習進行訓練,通過與自己對抗,逐步改善策略來挑選行動(策略網(wǎng)絡),以評估誰將獲勝(價值網(wǎng)絡,另一深度卷積網(wǎng)絡)。價值網(wǎng)絡的作用是減少搜索的深度,所以,AlphaGO 搜索深度并不是特別深,它并不是一下子搜索出直達比賽末尾的300多步,而是搜索更少的步數(shù),比如20多步,并評估這些位置,而不是一路評估到底,看誰最終能贏。

AlphaGo 在蒙特卡洛樹搜索框架下,利用深度學習和強化學習進行訓練和評估,實現(xiàn)巨大突破。在游戲上取得了不錯的成果后,深度強化學習也逐漸被引入NLP領域,比如較為熱點的研究方向基于強化學習的文本生成技術(shù)(NLG)。另外,加州大學伯克利分校副教授 Pieter Abbeel 正在研究將深度強化學習應用到機器人上,比如 BRETT 在學習提升自己在家務勞動中的表現(xiàn)。

VIN。2016年 NIPS 最佳論文是一篇強化學習論文 Value iteration Network。這篇論文介紹了一個能學習設計策略,而不是完全被動遵循策略的神經(jīng)網(wǎng)絡。同時,這種新的強化學習觀并不是基于模型的(model-free)。VIN 的目的主要是解決深度強化學習泛化能力較弱的問題。傳統(tǒng)的深度強化學習(比如 deep Q-learning)目標一般是采用神經(jīng)網(wǎng)絡學習一個從狀態(tài)(state)到?jīng)Q策(action)的直接映射。神經(jīng)網(wǎng)絡往往會記憶一些訓練集中出現(xiàn)的場景。所以,即使模型在訓練時表現(xiàn)很好,一旦我們換了一個與之前訓練時完全不同的場景,傳統(tǒng)深度強化學習方法就會表現(xiàn)的比較差。

作者提出,不光需要利用神經(jīng)網(wǎng)絡學習一個從狀態(tài)到?jīng)Q策的直接映射,還要讓網(wǎng)絡學會如何在當前環(huán)境下做長遠的規(guī)劃(learn to plan),并利用長遠的規(guī)劃輔助神經(jīng)網(wǎng)絡做出更好的決策。

在文章中,我們提出了一種特殊的網(wǎng)絡結(jié)構(gòu)(value iteration module),這種結(jié)構(gòu)和經(jīng)典的規(guī)劃算法 value iteration 有著相同的數(shù)學表達形式。利用這種數(shù)學性質(zhì),VIN 將傳統(tǒng)的規(guī)劃算法(planning algorithm)嵌入了神經(jīng)網(wǎng)絡,使得網(wǎng)絡具有長期規(guī)劃的能力。

VIN 中所使用的特殊結(jié)構(gòu) value iteration module,在很多問題上都可以直接加入現(xiàn)有的強化學習框架,并用來改進很多現(xiàn)有模型的泛化能力。

3、NLP 方面的重要進展

實現(xiàn)人機流暢的交流需要解決一些問題,比如文本理解,問題回答以及機器翻譯等。

(1)機器翻譯

GNMT。2016年 9 月底,谷歌在 arXiv.org 上發(fā)表了論文Google`s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation,介紹了谷歌的神經(jīng)機器翻譯系統(tǒng)(GNMT),該系統(tǒng)實現(xiàn)了機器翻譯領域的重大突破。11 月,谷歌再發(fā)論文宣布了其在多語言機器翻譯上的突破:實現(xiàn)了 zero-shot 翻譯。

傳統(tǒng)統(tǒng)計機器翻譯(Statistical Machine Translation, SMT)技術(shù),SMT 方法的最大特點是基于數(shù)據(jù)驅(qū)動的機器學習方法,只要提供足夠數(shù)量的雙語句對,在很短時間內(nèi)可以自動構(gòu)建一套統(tǒng)計機器翻譯系統(tǒng),翻譯性能超過基于規(guī)則的方法。2013年提出了神經(jīng)機器翻譯(Neural Machine Translation, NMT)技術(shù)。其思路與傳統(tǒng) SMT 方法完全不同,它采用神經(jīng)網(wǎng)絡直接實現(xiàn)兩個句子之間的自動翻譯,完全沒有規(guī)則方法和 SMT 方法的從小片段組裝成大片段翻譯的過程。2014年,Cho 和 Sutskever 提出了 Encoder-Decoder 架構(gòu)的神經(jīng)網(wǎng)絡機器翻譯系統(tǒng)。2015年,Yoshua Bengio 團隊進一步加入了Attention 的概念。Bengio 團隊的這個工作也奠定了后續(xù)很多NMT商業(yè)系統(tǒng)的基礎,也包括 Google 這次發(fā)布的GNMT。GNMT 基本框架仍然是帶 Attention 模塊的 Encoder-Decoder。

盡管有這些進步,但 NMT 的速度和準確度還沒能達到成為 Google Translate 這樣的生產(chǎn)系統(tǒng)的要求。谷歌新論文描述了我們怎樣克服了讓 NMT 在非常大型的數(shù)據(jù)集上工作的許多挑戰(zhàn),以及谷歌如何打造了一個在速度和準確度上都已經(jīng)足夠能為谷歌的用戶和服務帶來更好的翻譯的系統(tǒng)。

ByNet。DeepMind 提出了線性時間的神經(jīng)機器翻譯 ByNet。

我們提出了一種用于序列處理(sequence processing)的神經(jīng)架構(gòu)。ByteNet 是一種兩個擴張的卷積神經(jīng)網(wǎng)絡(dilated convolutional neural networks)的堆疊;其中一個網(wǎng)絡用于編碼源序列(source sequence),另一個網(wǎng)絡用于解碼目標序列(target sequence)——這個過程中目標網(wǎng)絡動態(tài)展開從而生成可變長度輸出。ByteNet 有兩個核心特性:它在與序列長度成線性的時間上運行;它能保留序列的時間分辨率(temporal resolution)。ByteNet 解碼器在字符級的語言建模上獲得了頂尖水平,并超越了之前循環(huán)神經(jīng)網(wǎng)絡取得的最好結(jié)果。ByteNet 也在原始的字符級機器翻譯(raw character-level machine translation)上獲得了接近最好的神經(jīng)翻譯模型(運行在二次時間(quadratic time)中)所能取得的頂尖表現(xiàn)。由 ByteNet 學習到的隱含架構(gòu)能反映出序列之間的預期對應。

(2)文本理解

JMT。Salesforce 的 MetaMind (http://metamind.io/) 建立了一個叫做 Joint Many-Tasks(JMT)的模型,目標是要創(chuàng)造出一個可以學習五個常見自然語言處理任務的模型:

詞性標注(Part-of-speech tagging)。指對句子中的每個詞都指派一個合適的詞性,比如說名詞、動詞、形容詞等。

詞塊分析(Chunking)。也叫做淺層句法分析(shallow parsing),其中涉及到很多任務,像是尋找名詞和動詞詞組等。

依存關系分析(Dependency parsing)。識別詞語之間的語法關系(比如說形容詞修飾名詞)。

語義相關度(Semantic relatedness)。衡量兩個句子之前的語義相關程度,其結(jié)果是用一個實值分數(shù)來表示的。

文字蘊含(Textual entailment)。確定前提的句子是否包含一個表示假設的句子??赡艹霈F(xiàn)的句子關系包括:蘊含、矛盾 和中立。

這個模型背后的魔力就在于它是端對端訓練的。也就是說,它能夠讓兩個不同層面的處理兵種,這樣淺層任務(不那么復雜的)可以得到改善,從深層(較復雜的任務)中得出結(jié)論。我們之前的想法是只用淺層來改進深層的任務,而不是用其他的方式,所以這個采用不同的方式與之前的思路比較來說是一個新的想法。除了詞性標注之外,這個模型在其他方面都取得了很好的成績。

(3)問題回答

DCN。MetaMind 同樣提出了稱之為 Dynamic Coattention Network (DCN) 的新模型來解決疑問解答問題,該模型建立在相當直觀的思路之上。想象下給你了一篇長文并問你一些問題,你是想先看文章再聽問題呢,還是更想先聽問題再開始閱讀文章?一般提前知道問題是怎么樣的就會知道看文章要注意些什么,如果不知道問題,那么你就會將你的注意力平均分配并記下每一點可能會被提問的細節(jié)。DCN 也是在做這樣一件事,首先它生成一個內(nèi)部表征,這個內(nèi)部表征是基于文本并且由系統(tǒng)將要回答的問題做為約束條件,然后就是按照可能的回答列表迭代,直到收斂到最后的回答。

(4)語音識別

2016年10月19日的一篇論文Achieving Human Parity in Conversational Speech Recognition中,微軟人工智能與研究部門的一個研究者和工程師團隊報告他們的語音識別系統(tǒng)實現(xiàn)了和專業(yè)速錄員相當甚至更低的詞錯率(WER),達到了 5.9%,而上個月這一數(shù)字還是 6.3%。 5.9% 的詞錯率已經(jīng)等同于人速記同樣一段對話的水平,而且這是目前行業(yè)標準 Switchboard 語音識別任務中的最低記錄。這個里程碑意味著,一臺計算機在識別對話中的詞上第一次能和人類做得一樣好。

受到機器學習集成技術(shù)(machine learning ensemble techniques)的啟發(fā),該系統(tǒng)使用了一系列卷積和循環(huán)神經(jīng)網(wǎng)絡。I-vector 建模和 lattice-free MMI 訓練為所有聲學模型架構(gòu)帶來了顯著的提升。使用了多個前向和反向運行 RNNLM 的語言模型重新計分(Language model rescoring)與基于后驗的詞系統(tǒng)結(jié)合為系統(tǒng)性能帶來了 20% 的增益。最好的單個系統(tǒng)使用 ResNet 架構(gòu)聲學模型和 RNNLM rescoring,在 NIST 2000 Switchboard 任務上實現(xiàn)了 6.9% 的詞錯率。結(jié)合系統(tǒng)取得了 6.3% 的詞錯率,代表了在這一基準任務上對先前成果的改進。

LipNet。來自牛津大學、Google DeepMind 和加拿大高等研究院(CIFAR)的研究人員發(fā)表了一篇具有重要價值的論文,提出了 LipNet——一種可以將可變長度的視頻序列映射成文本的模型,其使用了時空卷積、一個 LSTM 循環(huán)網(wǎng)絡和聯(lián)結(jié)主義的時間分類損失(connectionist temporal classification loss)。它是第一個將深度學習應用于模型的端到端學習的模型,可以將說話者的嘴唇的圖像幀序列映射到整個句子上。這個端到端的模型在預測句子前不再需要將視頻拆分成詞。在 GRID 語料庫上,LipNet 實現(xiàn)了 93.4% 的準確度,超過了經(jīng)驗豐富的人類唇讀者和之前的 79.6% 的最佳準確度,將自動唇讀技術(shù)的前沿水平推進到了前所未有的高度。在不久的將來,這一視頻識別應用會非常有用。

4、可微神經(jīng)計算機

邁向通用人工智能的又一重要成果。除了深度強化學習,DeepMind 另一重要研究領域是記憶(memory),特別是如何將神經(jīng)網(wǎng)絡的決策智能和有關復雜結(jié)構(gòu)化數(shù)據(jù)的存儲、推理能力結(jié)合起來的難題。

2016年 10 月,DeepMind 在 Nature發(fā)表了一篇論文Hybrid computing using a neural network with dynamic external memory,該論文介紹了一種記憶增強式的神經(jīng)網(wǎng)絡(memory-augmented neural network)形式——被稱為可微神經(jīng)計算機(differentiable neural computer),研究表明其可以學習使用它的記憶來回答有關復雜的結(jié)構(gòu)化數(shù)據(jù)的問題,其中包括人工生成的故事、家族樹、甚至倫敦地鐵的地圖。研究還表明它還能使用強化學習解決塊拼圖游戲(block puzzle game)問題。

人工神經(jīng)網(wǎng)絡非常擅長感官信號處理、序列學習和強化學習,但由于缺乏外部記憶(external memory),它們在表征變量和數(shù)據(jù)結(jié)構(gòu)以及長時間存儲數(shù)據(jù)上的能力卻很有限。這里我們介紹一種名叫可微神經(jīng)計算機(DNC: differentiable neural computer)的機器學習模型,該模型由一個可以讀寫外部記憶矩陣(external memory matrix)的神經(jīng)網(wǎng)絡構(gòu)成,這類似于傳統(tǒng)計算機中的隨機存取存儲器(RAM)。它既可以和傳統(tǒng)計算機一樣使用它的記憶(memory,注:對應于傳統(tǒng)計算機的「內(nèi)存」)表征和操作復雜的數(shù)據(jù)結(jié)構(gòu),也能和神經(jīng)網(wǎng)絡一樣從數(shù)據(jù)中學習這么做的方法。當使用監(jiān)督學習進行訓練時,我們發(fā)現(xiàn) DNC 可以成功回答設計用來模仿自然語言中的推理和推斷問題的合成問題。我們表明 DNC 可以學習尋找特定點之間的最短路徑和推斷隨機生成的圖中所缺少的鏈接等任務,然后還能將這些任務泛化到交通網(wǎng)和家族樹等特定的圖上。當使用強化學習進行訓練時,DNC 可以完成移動塊拼圖任務,其中變化的目標又符號的序列指定??偠灾覀兊慕Y(jié)果表明 DNC 有能力解決對沒有外部讀寫記憶的神經(jīng)網(wǎng)絡而言難以解決的復雜的結(jié)構(gòu)化任務。

5、深度學習與其他機器學習技術(shù)的融合

Deep Sequential Networks 與 side-information 結(jié)合起來以獲取更加豐富的語言模型。在 A Neural Knowledge Language Model 論文中,Bengio 的團隊將知識圖譜和 RNNs 結(jié)合起來。

交流知識是語言的一個主要目的。但是,目前的語言模型在編碼或解碼知識的能力上還存在顯著的限制。這主要是因為它們是基于統(tǒng)計共現(xiàn)(statistical co-occurrences)獲取知識的,但大部分描述知識的詞基本上都不是被觀察到的命名實體(named entities)。在這篇論文中,我們提出了一種神經(jīng)知識語言模型(NKLM: Neural Knowledge Language Model ),該模型結(jié)合了知識圖譜提供的符號知識(symbolic knowledge)與 RNN 語言模型。在每一個時間步驟,該模型都能夠預測被觀察到的詞應該是基于哪種事實。然后,就會從詞匯庫生成或從知識圖譜中復制出一個詞。我們在一個名叫 WikiFacts 的新數(shù)據(jù)集上訓練和測試了這個模型。我們的實驗表明,NKLM 能在生成遠遠更小量的未知詞的同時顯著提升困惑度(perplexity)。此外,我們發(fā)現(xiàn)其中被取樣的描述包含了曾在 RNN 語言模型中被用作未知詞的命名實體。

在 Contextual LSTM models for Large scale NLP Tasks 這篇研究中, Deepmind 提出了CLSTM (語境LSTM ,Contextual LSTM),是當前 RNN LSTM 的延伸,將語境特征(比如 ,主題 topics )吸收進了模型。另外,語言模型的注意力和記憶建模方面也很多有趣研究,比如 Ask Me Anything: Dynamic Memory Networks for NLP(ICML)。

二、硬件

隨著深度學習算法變得越來越復雜、所使用的數(shù)據(jù)集變得越來越大,對專用硬件的需求也正變得越來越大。2016 年,面向人工智能的平臺成了計算硬件開發(fā)的一個主要的新方向。這一年,除了英特爾和英偉達這兩家芯片巨頭在人工智能方向連綿不斷的高調(diào)動作,掌握核心科技的創(chuàng)業(yè)公司也在盡力改變著市場格局(盡管其中大部分有潛力的都被收購了),此外,就連谷歌這樣的互聯(lián)網(wǎng)也從中看到了發(fā)展的空間。

傳統(tǒng)芯片廠商方面,英偉達借助 GPU 和深度學習算法的高度契合而順勢發(fā)展,股價飛漲,可以說是 2016 年人工智能計算硬件領域的最大贏家??梢灶A見,英偉達將在整個2017年繼續(xù)占據(jù)主導地位,因為他們擁有最豐富的深度學習生態(tài)系統(tǒng)。

體量更大的巨頭英特爾自然也不會等著這個新市場被競爭對手占領,而收購似乎是個更快捷的追趕方法。2016 年,英特爾收購了多家人工智能創(chuàng)業(yè)公司,其中包括計算機視覺創(chuàng)業(yè)公司 Movidius 和深度學習芯片創(chuàng)業(yè)公司 Nervana 等。到 11 月份,有了 Nervana 和 2015 年收購的 FPGA 廠商 Altera 加持的英特爾公布了其人工智能路線圖,介紹了該公司在人工智能芯片市場上的公司戰(zhàn)略和產(chǎn)品生態(tài)系統(tǒng)。

另外順便一提,在這一領域存在感差很多的 AMD 在 2016 年年底也終于發(fā)力,宣布推出了其首款基于VEGA GPU 架構(gòu)的機器學習芯片。這款芯片的研發(fā)旨在大幅提升計算機在處理深度神經(jīng)網(wǎng)絡相關工作上的表現(xiàn),能夠更高效且更輕松執(zhí)行相關工作。新的 Radeon Instinct 加速芯片將給從事深度學習訓練和推論的研究機構(gòu)更強勁的 GPU 來開展深度學習相關研究。

此外,高通在 2017 年年初的 CES 開幕之前披露了其最新的 Snapdragon 835 的相關信息,除了其它方面的性能提升,在機器學習方面,其新增的功能包括支持客戶生成神經(jīng)網(wǎng)絡層、同時還支持谷歌的機器學習架構(gòu) TensorFlow。高通表示,Hexagon 682是首個支持TensorFlow和Halide 架構(gòu)的移動 DSP。

另外,DSP 供應商 CEVA、FPGA 供應商 Xilinx 和處理器技術(shù)提供商 Imagination 等廠商也都已經(jīng)在機器學習領域進行了布局。

互聯(lián)網(wǎng)巨頭似乎也從計算硬件領域發(fā)現(xiàn)了新的機會。2016 年 5 月,谷歌發(fā)布了一款新的定制化設計的芯片張量處理單元(TPU/Tensor Processing Unit),這款芯片是專門為基于谷歌已經(jīng)開源的 TensorFlow 機器學習框架而量身定制的。亞馬遜已經(jīng)宣布了他們的基于FPGA的云實例。這是基于Xilinx UltraScale +技術(shù),在單個實例上提供了6800個DSP片和64 GB內(nèi)存。微軟也通過 Project Catapult 表明了對 FPGA 的支持。另外,這一年 IBM 在神經(jīng)形態(tài)計算上的進展也得到了很大的關注,甚至可能預示著一種人工智能發(fā)展的新方向。

在這場競賽中,創(chuàng)業(yè)公司也并未落后太遠。該領域已經(jīng)流入了 5.89 億美元的風險投資和私募基金。前 NASA 局長創(chuàng)建的 Knuedge 在銷聲十幾年后再次出現(xiàn)在大眾面前,宣布完成了 1 億美元的融資。Mobileye ,一家向?qū)汃R、沃爾沃、通用、特斯拉等汽車公司提供 ADAS 的公司在自動駕駛汽車領域處于領導地位。Wave Computing、Kneron 以及中國的寒武紀和深鑒科技等公司都在努力開發(fā)自家的深度學習專用芯片平臺。而這些公司在 2016 年同樣也取得了相當不俗的表現(xiàn),比如源自中科院計算機研究所的寒武紀就在 2016 年推出的寒武紀 1A 處理器,據(jù)稱這是世界首款商用深度學習專用處理器。

學術(shù)界也并未避開這一領域。最近,MIT 的研究人員展現(xiàn)了比手機 GPU 快 10 倍的芯片 Eyeriss,能夠在手機本地運行深度學習算法。

創(chuàng)業(yè)公司 投資方 產(chǎn)品描述

Mobileye(199 年)耶路撒冷, 5.15 億美元, IPO) Fidelity Investments, Goldman Sachs, Blackrock 為自動駕駛汽車設計基于深度學習的計算機視頻 ASICs

Nervana Systems(2014 年,圣地亞哥,2400 萬美元,被英特爾收購) In-Q-Tel, Lux Capital, Draper Fisher Jurvetson 為基于深度學習系統(tǒng)的芯片設計定制的 ASIC。

Knuedge(2005 年,圣地亞哥,1億美元,處于早期階段) 未知 為機器學習應用和 HPC 數(shù)據(jù)中心設計神經(jīng)形態(tài)芯片。

Movidius(2005 年,圣馬特奧,8650 萬美元,E 輪) West Summit Capital, Robert Bosch Venture Capital 為 IoT 設備設計深度學習視覺處理芯片。

Teradeep(2014 年,圣克拉拉,未知,早期階段) Xilinx 科技公司合伙人 為 IoT 設計基于深度學習的嵌入式計算機視覺系統(tǒng)。

CoreViz(2014 年,帕羅奧圖,未知,早期階段) Graph Ventures 為數(shù)據(jù)中心、汽車、手機系統(tǒng)設計低能耗的視覺處理芯片。

創(chuàng)業(yè)公司一欄中的記錄方式為(創(chuàng)立年份、城市、融資、公司所處階段),該表只展示了一些主要的投資者。

三、研究社區(qū)

1、開放

世界上最大的科技公司,頂尖大學甚至 DARPA 都在開源他們的人工智能系統(tǒng)。

谷歌。2016年3月,谷歌宣布加入開放計算項目(Open Compute Project),通過這個項目,將其服務器和數(shù)據(jù)中心的解決方案開源。5月,谷歌開源最精確自然語言解析器 SyntaxNet。6月,新開源「寬度&深度學習」框架。8月,Google Research 發(fā)布博客稱開源了在 Annotated English Gigaword 上進行新聞標題生成任務的 TensorFlow 模型代碼。12月,谷歌開源了一款用于交互式可視化和高維數(shù)據(jù)分析的網(wǎng)頁工具 Embedding Projector,其作為 TensorFlow 的一部分,能帶來類似 A.I. Experiment 的效果。同時,谷歌也在 projector.tensorflow.org 放出了一個可以單獨使用的版本,讓用戶無需安裝和運行 TensorFlow 即可進行高維數(shù)據(jù)的可視化。12月,谷歌還開源了機器閱讀理解數(shù)據(jù)集 MC-AFP。

Facebook。2016年6月,F(xiàn)acebook 發(fā)布最新開源 Torchnet工具包。這個工具包可快速建立有效且可重復使用的學習系統(tǒng),從而促進深度學習協(xié)同發(fā)展,加速人工智能研究。Facebook 的圖像識別功能一直為人所贊嘆,也是一些專業(yè)人士介紹相關技術(shù)的范例。8月,F(xiàn)acebook 官方發(fā)布博客稱開源 DeepMask 分割構(gòu)架、SharpMask 分割精煉模塊、MultiPathNet 的代碼。FastText是 Facebook 開發(fā)的一款快速文本分類器,提供簡單而高效的文本分類和表征學習的方法,性能比肩深度學習而且速度更快。8月,F(xiàn)acebook 官方博客發(fā)文稱開源 fastText。9月,F(xiàn)acebook 開源重磅項目 CommAI-env,一個開發(fā)基于通信的人工智能系統(tǒng)的平臺。12月,F(xiàn)acebook 宣布開源 TorchCraft,它在星際爭霸與深度學習環(huán)境 Torch 之間架起了一道橋梁。TorchCraft 可讓每個人編寫出星際爭霸人工智能玩家Bot。另外,F(xiàn)acebook 還開源了圍棋人工智能系統(tǒng)DarkForest。

微軟。2016年1月,微軟發(fā)布了深度學習工具包 CNTK。7月,微軟創(chuàng)建的 Malmo 項目將 Minecraft 作為高級人工智能研究的測試平臺,在開源許可下開放給了 GitHub 上從新手到老手等所有程序員。在此之前,這一系統(tǒng)只對很少的計算機科學家開放過私人預覽,它被設計用于幫助研究者開發(fā)先進的、更為普遍能做像學習、對話、決策以及完成復雜任務等工作的人工智能。這一系統(tǒng)將會幫助研究者們開發(fā)用于強化學習的新技術(shù)和新方法。目前微軟現(xiàn)在正努力讓 Malmo 可以在 Universe 中使用。10月,微軟開放了LightGBM(Light Gradient Boosting Machine),一個基于決策樹算法的快速的、分布式的、高性能 gradient boosting(GBDT、GBRT、GBM 或 MART)框架,可被用于排行、分類以及其他許多機器學習任務中。12月,微軟發(fā)布數(shù)據(jù)集MS MARCO。其背后的團隊聲稱這是目前這一類別中最有用的數(shù)據(jù)集,因為這個數(shù)據(jù)集是基于匿名的真實數(shù)據(jù)構(gòu)建的。通過將該數(shù)據(jù)集免費開放給更多的研究者,該團隊希望能夠促進機器閱讀領域的研究突破,就像之前研究者已經(jīng)在圖像識別和語音識別領域所取得顛覆性突破一樣。

谷歌、微軟、Facebook 等傳統(tǒng)的人工智能技術(shù)巨頭之外,百度近來也加入到了技術(shù)開源的浪潮之中。2016年1月,百度宣布開源人工智能代碼,百度硅谷實驗室已經(jīng)向 GitHub 上傳了 Warp-CTC C 代碼庫。與此同時,百度在一篇博客文章中鼓勵開發(fā)者試用這些代碼。繼 9月PaddlePaddle 之后,百度又宣布開源了一項深度學習基準 DeepBench。

2016年12月,DeepMind 開源3D人工智能訓練平臺。DeepMind Lab 是一個類全3D游戲平臺,為基于智能體的人工智能研究量身打造。和 Malmo 類似,也允許研究者創(chuàng)建迷宮,讓不同算法學習如何尋路,獲得獎勵。DeepMind 正在嘗試將「更自然的元素」(如起伏的地形和植物)整加入到這個虛擬世界中。開源后,DeepMind 希望在其他研究者的幫助下,這個平臺能夠更加復雜,從而訓練更聰明的訓練算法。

兩天以后,OpenAI 發(fā)布了一個「元平臺」Universe。它允許人工智能程序在其中與最初為人類玩家設計的十幾款 3D 游戲互動,另外,這個環(huán)境還包含了一些網(wǎng)絡瀏覽器與手機 app。相比 DeepMind Lab 的 3D 世界,OpenAI 的元平臺 Universe則更進一步。通過為同一個人工智能程序提供多種不同類型的環(huán)境,這一平臺或許可以解決領域內(nèi)最棘手的問題:如何創(chuàng)建一個可以解決任何新問題的算法。

大學方面。2016年9月,伯克利大學和 Adobe 在 Github 上開源了新的深度學習圖像編輯工具 iGAN。神經(jīng)機器翻譯是近段時間以來推動機器翻譯發(fā)展的主要推動力。2016年12月,哈佛大學自然語言處理研究組(Harvard NLP)宣布開源了其研發(fā)的神經(jīng)機器翻譯系統(tǒng) OpenNMT,該系統(tǒng)使用了 Torch 數(shù)學工具包。該研究組在官網(wǎng)上表示該系統(tǒng)已經(jīng)達到生產(chǎn)可用的水平(industrial-strength)。

DARPA 已經(jīng)向開源機器學習技術(shù)邁出了一大步。事實上,DARPA XDATA項目產(chǎn)生了一個目前最先進的機器學習、可視化和其他技術(shù)的目錄,任何人都可以下載、使用和修改這些技術(shù)以打造定制化的人工智能工具。

下面簡單列出了 2016 年最受歡迎的深度學習工具:

TensorFlow,來自谷歌,地址:https://github.com/tensorflow/tensorflow

Keras,來自 François Chollet,地址:https://github.com/fchollet/keras

CNTK,來自微軟,地址:https://github.com/Microsoft/CNTK

MXNet,來自 DMLC,被亞馬遜采用,地址:https://github.com/dmlc/mxnet

Theano,來自蒙特利爾大學,地址:https://github.com/Theano/Theano

Torch,來自 Ronan Collobert, Koray Kavukcuoglu, Clement Farabet,被 Facebook 廣泛使用,地址:https://github.com/torch/torch7

2、合作

OpenAI 是一個非營利性組織,它旨在建立學界和工業(yè)界之間的合作關系,并將其研究結(jié)果免費公開。OpenAI 在 2015 年建立,并在 2016 年開始發(fā)表它的研究結(jié)果(通過 InfoGAN 出版物、Universe 平臺、this one 會議)。OpenAI 的目標就是確保人工智能技術(shù)對盡可能多的人來說都是可行的,并且防止出現(xiàn)超人工智能。

另一方面,亞馬遜、DeepMind、谷歌、Facebook、IBM 和微軟還在人工智能之上達成了一項合作,其目標是提升公眾對這一領域的理解、支持最佳的實踐和為討論和參與開發(fā)一個開放的平臺。

另外,Yoshua Bengio 新書《Deep Learning》中文版已經(jīng)發(fā)布,該書由北京大學張志華老師團隊負責翻譯。2016年6月,吳恩達宣布開放訂閱自己的新書《machine learning yearning》。后來,吳恩達推特發(fā)文稱已經(jīng)郵件發(fā)送了該書的前12個章節(jié)。

最后,記得關注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長按識別二維碼關注

硬科技產(chǎn)業(yè)媒體

關注技術(shù)驅(qū)動創(chuàng)新

分享到