看Deepmind機(jī)器人尬舞,邊玩邊學(xué)AI技術(shù)
Deepmind通過增強(qiáng)學(xué)習(xí)讓木偶學(xué)習(xí)行走、跑跳。
在自然界中,無論是動(dòng)物,還是人類,都可以靈活而隨心所欲地做出一些動(dòng)作,比如猴子在樹上自由自在得擺動(dòng),或是NBA球員虛晃過對(duì)手,帥氣地投出籃球。但是在AI 研究領(lǐng)域,想要讓機(jī)器人掌握這些動(dòng)作(物理上就是一種復(fù)雜的電機(jī)控制)卻不是一件容易的事,而這是AI研究領(lǐng)域的重要組成部分。
近日,Deepmind公布了智能電機(jī)的相關(guān)研究成果,展示了機(jī)器人學(xué)習(xí)如何控制和協(xié)調(diào)身體來解決在復(fù)雜環(huán)境中的任務(wù)。這一研究涉及不同領(lǐng)域,包括計(jì)算機(jī)動(dòng)畫和生物力學(xué)。
接下來我們帶領(lǐng)大家邊玩邊學(xué)。
在復(fù)雜環(huán)境中產(chǎn)生動(dòng)作行為
上一個(gè)小視頻,先睹為快
此刻,想必你已經(jīng)忍俊不禁了吧。視頻中,我們可以直觀感受到木偶的動(dòng)作是笨拙的。
此處采用的是增強(qiáng)學(xué)習(xí),但不同于Deepmind此前開發(fā)的Atari或Go,這里,需要準(zhǔn)確描述復(fù)雜行為。具體來說,就是獎(jiǎng)勵(lì)機(jī)制的不同,在Atari和Go的開發(fā)過程中,設(shè)計(jì)人員將得分作為獎(jiǎng)勵(lì),就可以依照預(yù)期來優(yōu)化系統(tǒng)。但是在連續(xù)的控制任務(wù)(如運(yùn)動(dòng))中,獎(jiǎng)勵(lì)信號(hào)的選擇就沒有那么容易,常常會(huì)出現(xiàn)獎(jiǎng)勵(lì)信號(hào)的選擇不當(dāng),從而導(dǎo)致優(yōu)化結(jié)果與設(shè)計(jì)師期望不符。
由此,自然就會(huì)想到慎重選擇獎(jiǎng)勵(lì)信號(hào),以此來實(shí)現(xiàn)優(yōu)化,但是如果謹(jǐn)慎設(shè)計(jì)獎(jiǎng)勵(lì),也就等同于回避了增強(qiáng)學(xué)習(xí)的核心問題:系統(tǒng)如何直接從有限的獎(jiǎng)勵(lì)信號(hào)中自主學(xué)習(xí),讓木偶實(shí)現(xiàn)豐富而有效的動(dòng)作行為。
研究團(tuán)隊(duì)表示,為了讓系統(tǒng)有自我學(xué)習(xí)的能力,他們選擇直面增強(qiáng)學(xué)習(xí)中的核心問題。于是團(tuán)隊(duì)以環(huán)境本身具有足夠的豐富性和多樣性為研究的主要背景,從兩方面實(shí)現(xiàn)學(xué)習(xí):
一:預(yù)設(shè)一系列不同難度級(jí)別的環(huán)境,引導(dǎo)木偶學(xué)習(xí)和找到解決困難的方案;
二:因?yàn)檫^擬合,獎(jiǎng)勵(lì)機(jī)制和動(dòng)作細(xì)節(jié)都具有一定的誤差,從而每一次運(yùn)動(dòng)都有些微不同。發(fā)現(xiàn)不同方案之間的特殊性能差距,也將幫助系統(tǒng)有效學(xué)習(xí)。
為了使操控的木偶面對(duì)不同的地形有效的學(xué)習(xí),研究團(tuán)隊(duì)還開發(fā)了增強(qiáng)學(xué)習(xí)算法。
首先,團(tuán)隊(duì)開發(fā)了強(qiáng)大的策略梯度算法,如信任區(qū)域策略優(yōu)化(TRPO)和近端策略優(yōu)化(PPO),其中,他們選擇將每次更新的參數(shù)綁定到信任區(qū)域以確保算法的穩(wěn)定性。
其次,對(duì)于像廣泛使用的A3C算法以及相關(guān)算法,他們將其分配運(yùn)用在許多并行的代理環(huán)境和實(shí)例中。
這樣,面對(duì)復(fù)雜的環(huán)境,通過自主學(xué)習(xí),木偶自然就會(huì)有豐富而有效的行為表現(xiàn)。
通過對(duì)抗模仿人類行為
再來看看下面的“群魔亂舞”
視頻中這些小人們是不是已經(jīng)不忍直視,不過專業(yè)的角度來看,技術(shù)上已經(jīng)很棒了。
據(jù)了解,構(gòu)建可編程人形木偶的問題可以追溯到幾個(gè)世紀(jì)以前。在1495年,達(dá)芬奇以裝甲騎士的形式構(gòu)建了一個(gè)人形自動(dòng)機(jī)。騎士能夠通過曲柄傳遞的力量揮動(dòng),坐起來,打開和關(guān)閉其下巴。不像大多數(shù)鐘表只能產(chǎn)生沿著單極循環(huán)的運(yùn)動(dòng),機(jī)械騎士可以重新編程以改變其運(yùn)動(dòng),從而能夠及時(shí)改進(jìn)手臂運(yùn)動(dòng)方向或交替運(yùn)動(dòng)順序。
現(xiàn)如今,在此系統(tǒng)中,最優(yōu)控制和增強(qiáng)學(xué)習(xí)能夠用來設(shè)計(jì)人形木偶的行為,并且神經(jīng)網(wǎng)絡(luò)能夠存儲(chǔ)動(dòng)作行為和靈活檢測(cè)多種運(yùn)動(dòng)模式,將這幾種技術(shù)融合,可實(shí)現(xiàn)運(yùn)動(dòng)控制。但研究團(tuán)隊(duì)表示,依靠純?cè)鰪?qiáng)學(xué)習(xí)(RL),會(huì)使運(yùn)動(dòng)行為過于刻板,不符合設(shè)計(jì)期望。
通常,在計(jì)算機(jī)動(dòng)畫相關(guān)文獻(xiàn)中使用的替代性方案是采取運(yùn)動(dòng)捕捉數(shù)據(jù),將其加載到控制器中。在視覺上,采取這一方案的方法都產(chǎn)生了讓人滿意的運(yùn)動(dòng)表現(xiàn),然而,其中有些方法產(chǎn)生的狀態(tài)序列僅僅是理論上的,物理上并不適用。還有一些方法需要設(shè)計(jì)大量的組成因素,如成本函數(shù)。
而此處,為了從運(yùn)動(dòng)捕捉數(shù)據(jù)中進(jìn)行仿制學(xué)習(xí),研究團(tuán)隊(duì)采用生成對(duì)抗模仿學(xué)習(xí)(GAIL),這是模仿學(xué)習(xí)中最近的一項(xiàng)突破,簡(jiǎn)言之,該方法就是以類似于生成對(duì)抗網(wǎng)絡(luò)的方式產(chǎn)生模仿策略。與已存在的模仿學(xué)習(xí)相比,該方法的主要優(yōu)點(diǎn)是模仿與演示數(shù)據(jù)之間相似度的衡量不是基于預(yù)先設(shè)計(jì)好的度量值。
具體操作上,主要就是先訓(xùn)練低級(jí)別控制器,通過使用GAIL的擴(kuò)展來從運(yùn)動(dòng)捕捉數(shù)據(jù)中生成行為信號(hào),接著將低級(jí)別控制器嵌入更大的控制系統(tǒng)中,其中高級(jí)別控制器通過RL學(xué)習(xí)調(diào)制低級(jí)別控制器來解決新任務(wù)。
顯然,通過對(duì)抗模仿學(xué)習(xí),人偶會(huì)有更加靈活的身手。
強(qiáng)大的模仿能力
據(jù)悉,該系統(tǒng)的具體實(shí)現(xiàn)主要基于一種生成模型的神經(jīng)網(wǎng)絡(luò)架構(gòu),它能夠?qū)W習(xí)不同行為之間的關(guān)系。
首先,給其一個(gè)基本動(dòng)作,通過訓(xùn)練,該系統(tǒng)可以自動(dòng)對(duì)最基本動(dòng)作進(jìn)行編碼,并且基于基本動(dòng)作及對(duì)抗學(xué)習(xí),系統(tǒng)自動(dòng)微小改變來創(chuàng)新一個(gè)新動(dòng)作。同時(shí),研究團(tuán)隊(duì)還表示他們的系統(tǒng)可以在不同類型的行為之間切換。
總結(jié)
實(shí)現(xiàn)系統(tǒng)的靈活性和適應(yīng)性是AI研究的關(guān)鍵因素,Deepmind研究團(tuán)隊(duì)直面困難,專注于開發(fā)靈活的系統(tǒng),雖然目前系統(tǒng)模型依然粗糙,但是我們還是很期待后期進(jìn)一步的優(yōu)化和改進(jìn)后的成果。
最后,記得關(guān)注微信公眾號(hào):鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新
