人類知識(shí)多余?Deepmind新一代AlphaGo Zero自學(xué)3天打敗AlphaGo

巫盼 8年前 (2017-10-19)

AlphaGo Zero3天時(shí)間就能達(dá)到擊敗李世石的AlphaGo Lee的水平,21天可以達(dá)到了之前擊敗柯潔的AlphaGo Master的水平。

今天凌晨,谷歌旗下Deepmind人工智能團(tuán)隊(duì)發(fā)布了一篇轟動(dòng)AI界的論文,《Mastering the game of Go without human knowledge》(在沒(méi)有人類知識(shí)的情況下掌握圍棋),一句話總結(jié)這篇論文,他們研發(fā)的AlphaGo大表哥AlphaGo Zero能夠在沒(méi)有人類圍棋對(duì)弈數(shù)據(jù)的情況下,直接通過(guò)自我純強(qiáng)化學(xué)習(xí),于短短的3天自我訓(xùn)練時(shí)間后,以100:0的戰(zhàn)績(jī)擊敗曾經(jīng)的AlphaGo。

學(xué)霸中的戰(zhàn)斗機(jī),大表哥AlphaGo Zero完全靠“悟性”登上圍棋巔峰

在下面的視頻中,DeepMind研究人員簡(jiǎn)單的介紹了新一代的AlphaGo Zero的基本原理,

DeepMind聯(lián)合創(chuàng)始人兼CEO Demis Hassabis表示:“AlphaGo Zero是我們項(xiàng)目中最強(qiáng)大的版本,它展示了我們?cè)诟俚挠?jì)算能力,而且完全不使用人類數(shù)據(jù)的情況下可以取得如此大的進(jìn)展。”

舉個(gè)簡(jiǎn)單的例子,AlphaGo是經(jīng)過(guò)大量的人工對(duì)弈數(shù)據(jù)學(xué)習(xí)和訓(xùn)練才一點(diǎn)點(diǎn)登上圍棋的巔峰,它之所以能在去年打敗李世石,并且在今年以Master的身份戰(zhàn)勝排名世界第一的柯潔,都依賴于海量的人類對(duì)弈數(shù)據(jù)。

但是它的大表哥AlphaGo Zero是從一個(gè)完全不懂圍棋知識(shí)和規(guī)則的神經(jīng)網(wǎng)絡(luò)開(kāi)始,AlphaGo Zero每天就默默的自己一個(gè)人玩,不會(huì)像我們一樣整天突擊學(xué)習(xí)各種歷史棋譜,參考前輩們的經(jīng)驗(yàn)知識(shí),它完全依靠自己的悟性(自我強(qiáng)化學(xué)習(xí)),在這個(gè)過(guò)程中,神經(jīng)網(wǎng)絡(luò)會(huì)不斷更新、調(diào)整,來(lái)預(yù)測(cè)落子的位置,發(fā)展新的策略。

值得注意的是,AlphaGo Zero的自我訓(xùn)練強(qiáng)化時(shí)間更短,AlphaGo Zero只需要在4個(gè)TPU上花三天時(shí)間,自己左右互搏490萬(wàn)棋局。而它的大表弟AlphaGo需要在48個(gè)TPU上,花幾個(gè)月的時(shí)間,學(xué)習(xí)三千萬(wàn)棋局,才能打敗人類。對(duì)于AlphaGo Zero來(lái)說(shuō),3天時(shí)間就能達(dá)到了擊敗李世石的AlphaGo Lee的水平,21天可以達(dá)到了之前擊敗柯潔的AlphaGo Master的水平。

AlphaGo Zero給我們的啟發(fā)

Deepmind的論文中也公布了AlphaGo Zero的一些技術(shù)細(xì)節(jié),現(xiàn)在也有不少文章分享了相關(guān)的技術(shù)原理,鎂客君簡(jiǎn)單的整理一下,其實(shí)主要在于AlphaGo Zero有更深的網(wǎng)絡(luò)能更有效地直接從棋盤(pán)上提取特征。

AlphaGo Zero在自我對(duì)弈中,在每一個(gè)落點(diǎn)s,神經(jīng)網(wǎng)絡(luò)fθ都會(huì)進(jìn)行蒙特卡洛樹(shù)(MCTS)搜索,得出每一步落子的概率π,再根據(jù)游戲規(guī)則計(jì)算出最終的獲勝者z,這一過(guò)程可被視為一個(gè)強(qiáng)有力的評(píng)估策略操作。在這其中,神經(jīng)網(wǎng)絡(luò)參數(shù)不斷更新,落子概率和價(jià)值 (p,v)= fθ(s)也越來(lái)越接近改善后的搜索概率和自我對(duì)弈勝者 (π, z),而新的參數(shù)也會(huì)被用于下一次的自我對(duì)弈來(lái)以增強(qiáng)搜索的結(jié)果。

更多的技術(shù)原理可以參考下面的論文:

https://deepmind.com/documents/119/agz_unformatted_nature.pdf

其實(shí)AlphaGo Zero之所以會(huì)一石激起千層浪,很大原因在于這種自我強(qiáng)化訓(xùn)練,不需要過(guò)多人工標(biāo)注樣本的自我強(qiáng)化訓(xùn)練未來(lái)可能的應(yīng)用前景。

想象一下,以后可能再也不用花費(fèi)大量的時(shí)間去為人工智能的應(yīng)用或者產(chǎn)品做海量的數(shù)據(jù)準(zhǔn)備工作,更何況很多情況下,數(shù)據(jù)的獲取難度也非常之大。

尤其是很多小樣本應(yīng)用領(lǐng)域內(nèi),大量的人工標(biāo)注幾乎不可能實(shí)現(xiàn),比如醫(yī)療數(shù)據(jù)方面,考慮到數(shù)據(jù)隱私性,以及各個(gè)醫(yī)院之間的互通性,這些都讓海量數(shù)據(jù)獲取和訓(xùn)練難上加難。

而Demis Hassabis認(rèn)為AlphaGo Zero的意義在于,“我們希望利用這樣的算法突破來(lái)幫助解決現(xiàn)實(shí)世界的各種緊迫問(wèn)題,例如蛋白質(zhì)折疊或新材料設(shè)計(jì)。如果我們能在這些問(wèn)題上取得與AlphaGo同樣的進(jìn)展,就有可能推動(dòng)人類理解,并對(duì)我們的生活產(chǎn)生積極影響。”

AlphaGo Zero的技術(shù)理論是美好的,但是我們也需要思考的是,這種僅僅依靠神經(jīng)網(wǎng)絡(luò)算法來(lái)解決實(shí)際問(wèn)題,其實(shí)際應(yīng)用的范圍到底有多大以及效果如何?

人工智能專家、美國(guó)北卡羅萊納大學(xué)夏洛特分校洪韜教授表示,早期人工智能火了之后,被神經(jīng)網(wǎng)絡(luò)“解決”的實(shí)際問(wèn)題寥寥無(wú)幾;美國(guó)密歇根大學(xué)人工智能實(shí)驗(yàn)室主任Satinder Singh也表示,人工智能和人甚至動(dòng)物相比,所知所能依然極端有限。

回顧AlphaGo成名史,聊聊AlphaGo Zero的下一步

出生于2014年的AlphaGo,2015年就擊敗了樊麾,成為第一個(gè)無(wú)需讓子即可在19路棋盤(pán)上擊敗圍棋職業(yè)棋手的電腦圍棋程序。到了2016年3月,AlphaGo在和李世石的對(duì)戰(zhàn)中一舉成名,4:1的勝績(jī)讓它成為有史以來(lái)第一位非人類的名譽(yù)職業(yè)九段;之后升級(jí)版AlphaGo以“Master”的稱號(hào),挑戰(zhàn)了中韓日臺(tái)的一流高手,最終60戰(zhàn)全勝;2017年,AlphaGo在浙江烏鎮(zhèn),和我國(guó)圍棋選手柯潔進(jìn)行對(duì)戰(zhàn),最終以打敗柯潔成為世界第一正式退役謝幕。

那么對(duì)于AlphaGo Zero,大家也非常期待它會(huì)以什么樣的身份正式亮相,鎂客君覺(jué)得可能會(huì)是這樣的情景:

今年8月的時(shí)候,DeepMind 曾公開(kāi)宣布,星際爭(zhēng)霸 2 將會(huì)是其下一個(gè)目標(biāo)。自學(xué)能力如此強(qiáng)的AlphaGo Zero極有可能會(huì)在星際爭(zhēng)霸AI中亮相。

和圍棋對(duì)弈相比,星際爭(zhēng)霸 AI 也是基于開(kāi)發(fā)者人工編寫(xiě)的規(guī)則和策略,此前的對(duì)戰(zhàn)中,AI會(huì)觀看海量的比賽數(shù)據(jù),然后嘗試各種不同的策略,在反復(fù)的訓(xùn)練和學(xué)習(xí)后,從其中選出最有可能獲勝的一種??梢韵胂螅凑誂lphaGo Zero的自我強(qiáng)化學(xué)習(xí)能力,它完全能夠在自我博弈過(guò)程中去尋找到最佳的策略。

最后,在看到柯潔發(fā)的這條微博動(dòng)態(tài)后,

一聲唏噓,在這樣的人工智能面前,人類的學(xué)習(xí)經(jīng)驗(yàn)價(jià)值似乎越來(lái)越低,人類會(huì)太多余嗎……

最后,記得關(guān)注微信公眾號(hào):鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(zhǎng)按識(shí)別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新

分享到