繼人工智能攻陷圍棋,德州撲克也淪陷了

韓璐 9年前 (2017-01-11)

相對(duì)于圍棋,德州撲克的非完美信息給了人工智能更大的壓力。

AlphaGo披著“Master”在中韓圍棋界大獲全勝后,德州撲克也不幸淪陷,只不過這次的主角并不是AlphaGo。

繼人工智能攻陷圍棋,德州撲克也淪陷了

近日,來自加拿大Alberta大學(xué)、捷克Charles大學(xué)、布拉格捷克理工大學(xué)的10位研究員在arXiv網(wǎng)站(一個(gè)收集物理學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)與生物學(xué)論文預(yù)印本的網(wǎng)站)上傳了一篇題為《DeepStack:無限注德?lián)涞膶I(yè)級(jí)人工智能玩家》的論文,介紹了一種能在一對(duì)一無限注德州撲克中擊敗人類玩家的新算法“DeepStack”。

在圍棋等棋類游戲中,玩家能夠獲得的確定性信息是對(duì)稱的,而德州撲克不同,這是一種包含了欺騙、推測(cè)的非完美信息游戲。在德州撲克的游戲中,玩家只能掌握自己手上的牌,通過推理非對(duì)稱的信息,從而與對(duì)手進(jìn)行博弈。而這里就是該論文的意義所在,論文中提到“DeepStack是一種通用算法,可用于一大類非完整信息的序列博弈 ”。

不同于過去研究人員所采用的一種壓縮型的策略,這個(gè)加拿大和捷克的合作團(tuán)隊(duì)在開發(fā)新算法“DeepStack”過程中更注重培養(yǎng)人工智能出牌時(shí)的“直覺”。在運(yùn)用深度學(xué)習(xí),反復(fù)自我博弈之后,“DeepStack”學(xué)會(huì)了在每一個(gè)具體情境出現(xiàn)時(shí)進(jìn)行推理,這種做法非常接近于人類玩家的習(xí)慣。

去年年末,該團(tuán)隊(duì)邀請(qǐng)了33名專業(yè)撲克選手與“DeepStack”進(jìn)行了44852次博弈。在最后的結(jié)果中,DeepStack成為了首個(gè)在一對(duì)一無限注德?lián)渲袘?zhàn)勝人類玩家的人工智能,并且平均勝率達(dá)到了492mbb/g(milli-big-blinds per game,用于衡量撲克玩家表現(xiàn)的指數(shù),一般職業(yè)玩家認(rèn)為50mbb/g是個(gè)門檻,750mbb/g就是對(duì)手每局都棄牌的贏率)。

最后,記得關(guān)注微信公眾號(hào):鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(zhǎng)按識(shí)別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新

分享到