人工智能里程碑,谷歌AlphaGo擊敗圍棋冠軍!

周彤 10年前 (2016-01-28)

AlphaGo突破人工智能深度學(xué)習(xí)技術(shù)。

圍棋是眾所周知的難,盡管計(jì)算機(jī)系統(tǒng)越來越發(fā)達(dá),但是在強(qiáng)勁的圍棋職業(yè)選手面前,一直都沒能有重大突破。

但是,這個(gè)傳統(tǒng)有了改變。

谷歌日前正式宣布程序AlphaGo打敗了歐洲圍棋職業(yè)選手,見證了人工智能的極大進(jìn)步。

之前,計(jì)算機(jī)系統(tǒng)在智力游戲上已經(jīng)取得了許多光輝的榮譽(yù),戰(zhàn)勝了許多人類頂級(jí)選手,包括國(guó)際象棋、五子棋、黑白棋、拼字游戲等等,但是在有著2500百年歷史的東方游戲圍棋上一直處在下風(fēng)。

對(duì)此,谷歌的人工智能專家表示,這個(gè)壁壘很快就可以被打破了。AlphaGo在沒有任何讓子的情況下以5:0完勝法國(guó)圍棋職業(yè)二段棋手樊麾,三月份即將對(duì)戰(zhàn)韓國(guó)九段棋手李世乭。

28日上午,《自然》發(fā)表了一篇來自Google DeepMind團(tuán)隊(duì),程序AlphaGo的創(chuàng)造者撰寫的關(guān)于深度學(xué)習(xí)系統(tǒng)的論文,論文中表示:在程序AlphaGo中,DeepMind的研究員錄入了大量職業(yè)棋手的棋譜,加起來足有3000萬步,使用增強(qiáng)學(xué)習(xí)的方法來訓(xùn)練AI,可以讓系統(tǒng)自己下棋,自己研習(xí)棋譜,當(dāng)然這僅僅是第一步。如果只有這樣的訓(xùn)練是無法突破的,為了更好的表現(xiàn),研究人員開始讓系統(tǒng)進(jìn)行自我博弈,計(jì)算出比基礎(chǔ)棋譜更多新的打點(diǎn),也是靠這些新的打點(diǎn)來戰(zhàn)勝人類。

DeepMind CEO Demis Hassabis表示:最重要的是,AlphaGo不僅記錄著大量的棋譜,而且還有一系列的規(guī)則來指導(dǎo)人工智能進(jìn)行獨(dú)立的“思考”,通過這種讓機(jī)器學(xué)習(xí)的方式可以掌握更多的比賽技巧。

DeepMind的核心技術(shù)就在于結(jié)合了“強(qiáng)化學(xué)習(xí)”和其他的人工智能手段,可以用于解決現(xiàn)實(shí)機(jī)器人執(zhí)行物理任務(wù)和對(duì)環(huán)境作出回應(yīng)的技術(shù)問題,即讓機(jī)器人變得“自然”。

最優(yōu)方案的預(yù)判能力

2014年初,在人類選手讓出四子的前提下,Coulom的圍棋程序“瘋石(Crazystone)”在一次比賽中戰(zhàn)勝了九段棋手依田紀(jì)基,但是此次比賽并不存在任何一方讓子的情況,可以說相當(dāng)公平,完全是實(shí)力的比拼。

那么人工智能想要戰(zhàn)勝人類到底難在哪里?關(guān)鍵在于在強(qiáng)大的計(jì)算機(jī)系統(tǒng)也無法在合理的時(shí)間里面分析出下一步的最優(yōu)走法。

1977年,IBM超級(jí)計(jì)算機(jī)“深藍(lán)”則使用了蒙特卡洛搜索樹的方式成功做到了這一點(diǎn)。雖說“深藍(lán)”可以預(yù)測(cè)出對(duì)手下一步可能怎么走,計(jì)算能力遠(yuǎn)超于人類,但是圍棋要復(fù)雜得多。國(guó)際象棋每一步平均只有35種走法,但是圍棋在19*19的棋盤內(nèi),有361個(gè)點(diǎn),從機(jī)器學(xué)習(xí)的角度看圍棋最大有3^361次方種局面,大致的體量是10^170,而已經(jīng)觀測(cè)到的宇宙中,原子的數(shù)量才10^80。國(guó)際象棋最多也只有2^155種局面,可見圍棋的難度系數(shù)有多大。

蒙特卡洛樹搜索技術(shù)可以讓Crazystone等系統(tǒng)進(jìn)行更長(zhǎng)遠(yuǎn)的計(jì)算,一旦再結(jié)合其他的技術(shù),那么就可以對(duì)可能出現(xiàn)的走法進(jìn)行篩選,然后分析出最優(yōu)的策略。

對(duì)于頂級(jí)大師而言,他們的走法很多時(shí)候都是靠直覺,因?yàn)樽銎宄诵枰粩嗟挠?jì)算,還有棋感,棋手可以根據(jù)棋形來分析攻防路線。棋手Hassabis表示:好的棋形看起來會(huì)順手得多,不僅需要棋手的計(jì)算能力,還需要審美能力,這也是圍棋幾千年來一直經(jīng)久不衰,保持迷人魅力的原因。

2014年到2015年,F(xiàn)acebook、愛丁堡大學(xué)、DeepMind等人工智能研究團(tuán)隊(duì)一直將圍棋作為人工智能突破的方向,能夠讓程序模仿人類的直覺是思維方式。

深度學(xué)習(xí)的自我強(qiáng)化

深度學(xué)習(xí)主要是靠神經(jīng)網(wǎng)絡(luò)技術(shù),可以模擬人腦中神經(jīng)元網(wǎng)絡(luò)的軟硬件網(wǎng)絡(luò),神經(jīng)元網(wǎng)絡(luò)是不會(huì)僅僅依靠蠻力或是預(yù)先輸入的規(guī)則,而是通過大量數(shù)據(jù)的分析,來學(xué)習(xí)特定的任務(wù)。比如說你給神經(jīng)網(wǎng)絡(luò)提供大量的喵星人圖片,它就可以識(shí)別喵星人;提供足夠的語音,它就可以識(shí)別人類的語言;提供足夠多的圍棋走法,它就可以下圍棋。

DeepMind,愛丁堡、Facebook的團(tuán)隊(duì)都希望神經(jīng)網(wǎng)絡(luò)可以像人類一樣通過觀看圍棋來學(xué)習(xí)圍棋。Facebook的最新研究表明,該方法是可行的的,將深度學(xué)習(xí)和蒙特卡洛樹搜索方法相結(jié)合,F(xiàn)acebook已經(jīng)打敗了一些人類選手,雖然并不是像Crazystone和其他頂尖選手。

DeepMind顯然走得更遠(yuǎn),在3000萬步走法中,它的神經(jīng)網(wǎng)絡(luò)可以以57%的準(zhǔn)確度預(yù)測(cè)人類對(duì)手的下一步走法。Hassabis和團(tuán)隊(duì)通過使用強(qiáng)化學(xué)習(xí)的方法讓這一個(gè)神經(jīng)網(wǎng)絡(luò)和自己另一個(gè)稍微有區(qū)別的版本進(jìn)行作戰(zhàn),在兩者的對(duì)決當(dāng)中,系統(tǒng)可以評(píng)估出哪一步的效果更好,可以占領(lǐng)更多的棋盤區(qū)域。由此,神經(jīng)網(wǎng)絡(luò)可以判斷出哪一個(gè)走法是最優(yōu)的方法。

DeepMind的研究者David Silver表示:在和其他神經(jīng)網(wǎng)絡(luò)對(duì)決的數(shù)百萬局之后,AlphaGo就可以自己發(fā)現(xiàn)新的策略,并一步步提升水平。

顯然,正是這種深度學(xué)習(xí)的方法使得AlphaGo超越了其它圍棋AI系統(tǒng)。

更值得一提的是,研究人員還會(huì)將結(jié)果反饋給第二個(gè)神經(jīng)網(wǎng)絡(luò),通過了解前任的走法,第二個(gè)神經(jīng)網(wǎng)絡(luò)便可以使用諸多相同的技術(shù)來判斷每一步的結(jié)果。這一做法有點(diǎn)類似于深藍(lán)等舊系統(tǒng)在國(guó)際象棋上的做法,但是最關(guān)鍵的是AlphaGo會(huì)在下棋的過程中不斷學(xué)習(xí),分析更多的數(shù)據(jù),而不是暴力解決所有可能的步驟。這樣AlphaGo就有可能戰(zhàn)勝人類選手了。

和其他神經(jīng)網(wǎng)絡(luò)一樣,DeepMind的系統(tǒng)運(yùn)行在配備了GPU的機(jī)器上。之前人們僅把GPU用在渲染游戲圖像上,后來發(fā)現(xiàn)GPU在深度學(xué)習(xí)上表現(xiàn)很好。

Hassabis表示:裝備了一定數(shù)量的GPU芯片之后,DeepMind系統(tǒng)在單一電腦上也可以使用。但是在與樊麾的對(duì)戰(zhàn)當(dāng)中,使用了更大的計(jì)算機(jī)網(wǎng)絡(luò),包括170個(gè)GPU和1200個(gè)標(biāo)準(zhǔn)CPU。大的計(jì)算機(jī)網(wǎng)絡(luò)不僅訓(xùn)練了同樣的系統(tǒng)還進(jìn)行了實(shí)際對(duì)戰(zhàn),且借鑒了訓(xùn)練的結(jié)果。

雖說Hassabiss會(huì)不斷改善系統(tǒng),但是等到AlphaGo與韓國(guó)選手李世乭對(duì)戰(zhàn)時(shí),還會(huì)使用相同的配置,比賽當(dāng)中系統(tǒng)需要連接網(wǎng)絡(luò),而且會(huì)“自己鋪設(shè)光纖”。

無疑挑戰(zhàn)世界冠軍李世乭比樊麾的難度系數(shù)要高得多,但Coulom還是選擇相信DeepMind會(huì)贏。在過去的數(shù)十年里,他一直在開發(fā)最好的系統(tǒng),希望可以打敗選手,現(xiàn)在他認(rèn)為這個(gè)目標(biāo)已經(jīng)實(shí)現(xiàn)了,他堅(jiān)信GPU會(huì)贏的。

結(jié)語

AlphaGo的重要性是毋庸置疑的,同樣的技術(shù)還可以運(yùn)用到機(jī)器人的科研當(dāng)中,還有類似Siri的數(shù)字助理和金融系統(tǒng)里面。

深度學(xué)習(xí)創(chuàng)業(yè)Skymind的創(chuàng)始人Chris Nicholson表示:技術(shù)能用于任何對(duì)抗性問題,任何類似于游戲且需要策略的事情,包括戰(zhàn)爭(zhēng)、商業(yè)和交易。

但是這也是一件值得憂慮的事,就比如DeepMind的系統(tǒng)不僅可以自己學(xué)會(huì)下圍棋,從人類提供的數(shù)學(xué)中學(xué)習(xí),還可以自動(dòng)生成數(shù)據(jù),與自己下棋學(xué)習(xí)。特斯拉創(chuàng)始人埃隆·馬斯克等大佬也曾多次聲明,這類AI系統(tǒng)終究會(huì)有一天超越人類智能,完全脫離掌控。

當(dāng)然現(xiàn)在的DeepMind的系統(tǒng)還在Hassabis等人的控制之下,雖說破解了復(fù)雜的游戲,但始終也僅僅只是一個(gè)游戲。AlphaGo離真正意義上的人工智能還很遠(yuǎn),更不要提超級(jí)智能了。下棋作為一種高度結(jié)構(gòu)化的情景,系統(tǒng)還遠(yuǎn)沒有人類的理解能力。但是不可否認(rèn)的是AlphaGo代表了一種方向,如果AI可以理解圍棋,那么它就可以理解更多的事,從某種意義上說,宇宙不也是一種圍棋嗎?

人工智能已經(jīng)成為一種科技發(fā)展的主流,也許超級(jí)智能的那一天真的會(huì)到來。

最后,記得關(guān)注微信公眾號(hào):鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(zhǎng)按識(shí)別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新

分享到