MIT人工智能實(shí)驗(yàn)室發(fā)力!讓機(jī)器人告訴你5秒后的世界

韓璐 9年前 (2016-06-23)

這周MIT人工智能實(shí)驗(yàn)室在視覺(jué)預(yù)測(cè)領(lǐng)域取得突破性進(jìn)展,讓機(jī)器預(yù)測(cè)下一秒的世界。

面對(duì)握手、擁抱、kiss……,基于經(jīng)驗(yàn)和直覺(jué),我們總是能在動(dòng)作完成之前給予對(duì)方正確的回應(yīng),那機(jī)器人可不可以做到呢?答案是可以的!

MIT人工智能實(shí)驗(yàn)室發(fā)力!讓機(jī)器人告訴你5秒后的世界

就在這周 ,MIT的計(jì)算機(jī)科學(xué)及人工智能實(shí)驗(yàn)室(CSAIL)的研究者們?cè)谝曈X(jué)預(yù)測(cè)領(lǐng)域取得了一項(xiàng)突破性進(jìn)展,使得預(yù)測(cè)交互行為算法的精確性得到了前所未有的提高。

在經(jīng)過(guò)大量視頻的情景訓(xùn)練后,他們研究的系統(tǒng)能夠預(yù)測(cè)兩個(gè)人是否會(huì)擁抱,接吻,握手或者擊掌。下一階段,它還能預(yù)測(cè)視頻中5秒鐘后會(huì)出現(xiàn)的對(duì)象。

“人類能夠通過(guò)自身經(jīng)驗(yàn)去自動(dòng)學(xué)習(xí)行為預(yù)測(cè),這也使我們對(duì)能否讓計(jì)算機(jī)獲得這種常識(shí)產(chǎn)生興趣。”CSAIL的博士生Carl Vondrick說(shuō)。對(duì)于研究團(tuán)隊(duì)的成果,Vondrick表示:“我們想要展示的是,僅僅通過(guò)觀看大量視頻,計(jì)算機(jī)就能獲得足夠的知識(shí)來(lái)連續(xù)預(yù)測(cè)其周圍的環(huán)境。”

MIT人工智能實(shí)驗(yàn)室發(fā)力!讓機(jī)器人告訴你5秒后的世界

工作原理

值得一提的是,在這次研究開(kāi)發(fā)中,CSAIL團(tuán)隊(duì)并沒(méi)有采取過(guò)往“預(yù)測(cè)型計(jì)算機(jī)視覺(jué)研究”中運(yùn)用較為普遍的兩種方法,而是自行開(kāi)發(fā)出一種能夠預(yù)測(cè)“視覺(jué)表征”的算法,該算法利用了深度學(xué)習(xí)技術(shù)(人工智能的一個(gè)分支),即運(yùn)用“神經(jīng)網(wǎng)絡(luò)”系統(tǒng)來(lái)教計(jì)算機(jī)觀察大量數(shù)據(jù)從而自動(dòng)找出模型。

對(duì)于這種算法,Vondrick給出的解釋是:“不是說(shuō)一個(gè)像素值為藍(lán)色,下個(gè)為紅色,等等這樣,視覺(jué)表征揭示了更大規(guī)模的圖片的信息,比如某個(gè)人臉像素的采集。”

在具體的運(yùn)作過(guò)程中,每一個(gè)預(yù)測(cè)表征的這種算法網(wǎng)絡(luò),都會(huì)被自動(dòng)歸類為四種行為(擁抱,握手,擊掌或者kiss)之一,然后系統(tǒng)會(huì)融合所有行為于一體給出最終預(yù)測(cè)結(jié)果。例如,三個(gè)網(wǎng)絡(luò)預(yù)測(cè)kiss,另一個(gè)可能是擁抱。

當(dāng)被問(wèn)到為何自行開(kāi)發(fā)算法的時(shí)候,Vondrick表示:“未來(lái)有著天然的不確定性,所以去開(kāi)發(fā)一個(gè)運(yùn)用這些表征來(lái)預(yù)測(cè)所有可能性的系統(tǒng)帶來(lái)的自我挑戰(zhàn)非常令人興奮。”

MIT人工智能實(shí)驗(yàn)室發(fā)力!讓機(jī)器人告訴你5秒后的世界

成果展現(xiàn)

在運(yùn)用算法進(jìn)行了600個(gè)小時(shí)無(wú)標(biāo)簽視頻訓(xùn)練后,研究團(tuán)隊(duì)拿出一個(gè)新的視頻來(lái)對(duì)此系統(tǒng)進(jìn)行測(cè)試。

在視頻中的人物離完成四種動(dòng)作之一還有1秒鐘的時(shí)候,系統(tǒng)的預(yù)測(cè)準(zhǔn)確度達(dá)到了43%,比之前的測(cè)試結(jié)果高出了7個(gè)百分點(diǎn)。

文章一開(kāi)始也說(shuō)過(guò),除了預(yù)測(cè)兩個(gè)人的動(dòng)作之外,這個(gè)算法還有一個(gè)目標(biāo)——預(yù)測(cè)接下來(lái)5秒出現(xiàn)的對(duì)象?,F(xiàn)在讓我們來(lái)看看它所呈現(xiàn)的結(jié)果。

在第二項(xiàng)研究中,該算法展示了來(lái)自某個(gè)視頻的框架,并預(yù)測(cè)5秒后會(huì)出現(xiàn)的物體。例如某人打開(kāi)微波爐看見(jiàn)的是一個(gè)咖啡杯。對(duì)于該物體的預(yù)測(cè)結(jié)果,算法給出的預(yù)測(cè)準(zhǔn)確性是測(cè)試基準(zhǔn)的30%,盡管研究者們提醒說(shuō)平均精確度只有11%。千萬(wàn)不要看不起這數(shù)值哦,畢竟根據(jù)測(cè)試,人類受試者的預(yù)測(cè)準(zhǔn)確性也是能達(dá)到71%而已。

MIT人工智能實(shí)驗(yàn)室發(fā)力!讓機(jī)器人告訴你5秒后的世界

未來(lái)目標(biāo)

雖然到目前為止,CSAIL團(tuán)隊(duì)開(kāi)發(fā)的這種算法在實(shí)際運(yùn)用中的預(yù)測(cè)還不夠精確,但Vondrick還是很樂(lè)觀的表達(dá)了自己的態(tài)度:“可能會(huì)出現(xiàn)一些重大進(jìn)展,使我們離視覺(jué)預(yù)測(cè)在現(xiàn)實(shí)世界中的利用更近一些。”在他的未來(lái)展望中,此種算法的未來(lái)版本將能夠用于所有事情,從制定更優(yōu)行動(dòng)計(jì)劃的機(jī)器人,到發(fā)生人員跌落或傷亡時(shí)能夠通知急救人員的安全相機(jī)。

最后,記得關(guān)注微信公眾號(hào):鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(zhǎng)按識(shí)別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新

分享到