MIT人工智能實(shí)驗(yàn)室發(fā)力！讓機(jī)器人告訴你5秒后的世界

韓璐 9年前 (2016-06-23)

這周MIT人工智能實(shí)驗(yàn)室在視覺(jué)預(yù)測(cè)領(lǐng)域取得突破性進(jìn)展，讓機(jī)器預(yù)測(cè)下一秒的世界。

面對(duì)握手、擁抱、kiss……，基于經(jīng)驗(yàn)和直覺(jué)，我們總是能在動(dòng)作完成之前給予對(duì)方正確的回應(yīng)，那機(jī)器人可不可以做到呢？答案是可以的！

就在這周，MIT的計(jì)算機(jī)科學(xué)及人工智能實(shí)驗(yàn)室（CSAIL）的研究者們?cè)谝曈X(jué)預(yù)測(cè)領(lǐng)域取得了一項(xiàng)突破性進(jìn)展，使得預(yù)測(cè)交互行為算法的精確性得到了前所未有的提高。

在經(jīng)過(guò)大量視頻的情景訓(xùn)練后，他們研究的系統(tǒng)能夠預(yù)測(cè)兩個(gè)人是否會(huì)擁抱，接吻，握手或者擊掌。下一階段，它還能預(yù)測(cè)視頻中5秒鐘后會(huì)出現(xiàn)的對(duì)象。

“人類能夠通過(guò)自身經(jīng)驗(yàn)去自動(dòng)學(xué)習(xí)行為預(yù)測(cè)，這也使我們對(duì)能否讓計(jì)算機(jī)獲得這種常識(shí)產(chǎn)生興趣。”CSAIL的博士生Carl Vondrick說(shuō)。對(duì)于研究團(tuán)隊(duì)的成果，Vondrick表示：“我們想要展示的是，僅僅通過(guò)觀看大量視頻，計(jì)算機(jī)就能獲得足夠的知識(shí)來(lái)連續(xù)預(yù)測(cè)其周圍的環(huán)境。”

MIT人工智能實(shí)驗(yàn)室發(fā)力！讓機(jī)器人告訴你5秒后的世界

工作原理

值得一提的是，在這次研究開(kāi)發(fā)中，CSAIL團(tuán)隊(duì)并沒(méi)有采取過(guò)往“預(yù)測(cè)型計(jì)算機(jī)視覺(jué)研究”中運(yùn)用較為普遍的兩種方法，而是自行開(kāi)發(fā)出一種能夠預(yù)測(cè)“視覺(jué)表征”的算法，該算法利用了深度學(xué)習(xí)技術(shù)（人工智能的一個(gè)分支），即運(yùn)用“神經(jīng)網(wǎng)絡(luò)”系統(tǒng)來(lái)教計(jì)算機(jī)觀察大量數(shù)據(jù)從而自動(dòng)找出模型。

對(duì)于這種算法，Vondrick給出的解釋是：“不是說(shuō)一個(gè)像素值為藍(lán)色，下個(gè)為紅色，等等這樣，視覺(jué)表征揭示了更大規(guī)模的圖片的信息，比如某個(gè)人臉像素的采集。”

在具體的運(yùn)作過(guò)程中，每一個(gè)預(yù)測(cè)表征的這種算法網(wǎng)絡(luò)，都會(huì)被自動(dòng)歸類為四種行為（擁抱，握手，擊掌或者kiss）之一，然后系統(tǒng)會(huì)融合所有行為于一體給出最終預(yù)測(cè)結(jié)果。例如，三個(gè)網(wǎng)絡(luò)預(yù)測(cè)kiss，另一個(gè)可能是擁抱。

當(dāng)被問(wèn)到為何自行開(kāi)發(fā)算法的時(shí)候，Vondrick表示：“未來(lái)有著天然的不確定性，所以去開(kāi)發(fā)一個(gè)運(yùn)用這些表征來(lái)預(yù)測(cè)所有可能性的系統(tǒng)帶來(lái)的自我挑戰(zhàn)非常令人興奮。”

MIT人工智能實(shí)驗(yàn)室發(fā)力！讓機(jī)器人告訴你5秒后的世界

成果展現(xiàn)

在運(yùn)用算法進(jìn)行了600個(gè)小時(shí)無(wú)標(biāo)簽視頻訓(xùn)練后，研究團(tuán)隊(duì)拿出一個(gè)新的視頻來(lái)對(duì)此系統(tǒng)進(jìn)行測(cè)試。

在視頻中的人物離完成四種動(dòng)作之一還有1秒鐘的時(shí)候，系統(tǒng)的預(yù)測(cè)準(zhǔn)確度達(dá)到了43%，比之前的測(cè)試結(jié)果高出了7個(gè)百分點(diǎn)。

文章一開(kāi)始也說(shuō)過(guò)，除了預(yù)測(cè)兩個(gè)人的動(dòng)作之外，這個(gè)算法還有一個(gè)目標(biāo)——預(yù)測(cè)接下來(lái)5秒出現(xiàn)的對(duì)象?，F(xiàn)在讓我們來(lái)看看它所呈現(xiàn)的結(jié)果。

在第二項(xiàng)研究中，該算法展示了來(lái)自某個(gè)視頻的框架，并預(yù)測(cè)5秒后會(huì)出現(xiàn)的物體。例如某人打開(kāi)微波爐看見(jiàn)的是一個(gè)咖啡杯。對(duì)于該物體的預(yù)測(cè)結(jié)果，算法給出的預(yù)測(cè)準(zhǔn)確性是測(cè)試基準(zhǔn)的30%，盡管研究者們提醒說(shuō)平均精確度只有11%。千萬(wàn)不要看不起這數(shù)值哦，畢竟根據(jù)測(cè)試，人類受試者的預(yù)測(cè)準(zhǔn)確性也是能達(dá)到71%而已。

MIT人工智能實(shí)驗(yàn)室發(fā)力！讓機(jī)器人告訴你5秒后的世界

未來(lái)目標(biāo)

雖然到目前為止，CSAIL團(tuán)隊(duì)開(kāi)發(fā)的這種算法在實(shí)際運(yùn)用中的預(yù)測(cè)還不夠精確，但Vondrick還是很樂(lè)觀的表達(dá)了自己的態(tài)度：“可能會(huì)出現(xiàn)一些重大進(jìn)展，使我們離視覺(jué)預(yù)測(cè)在現(xiàn)實(shí)世界中的利用更近一些。”在他的未來(lái)展望中，此種算法的未來(lái)版本將能夠用于所有事情，從制定更優(yōu)行動(dòng)計(jì)劃的機(jī)器人，到發(fā)生人員跌落或傷亡時(shí)能夠通知急救人員的安全相機(jī)。

最后，記得關(guān)注微信公眾號(hào)：鎂客網(wǎng)（im2maker），更多干貨在等你！

鎂客網(wǎng)

科技 | 人文 | 行業(yè)

微信ID：im2maker

長(zhǎng)按識(shí)別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新

国内精品久久影院综合日日,中文字幕乱码亚洲无线三区,欧美亚洲综合成人专区,51久久夜色精品国产水果派解说,国语自产精品视频在线第100页

MIT人工智能實(shí)驗(yàn)室發(fā)力！讓機(jī)器人告訴你5秒后的世界

最新文章

注冊(cè)

国内精品久久影院综合日日,中文字幕乱码亚洲无线三区,欧美亚洲综合成人专区,51久久夜色精品国产水果派解说,国语自产精品视频在线第100页

MIT人工智能實(shí)驗(yàn)室發(fā)力！讓機(jī)器人告訴你5秒后的世界

最新文章

登錄

注冊(cè)

MIT人工智能實(shí)驗(yàn)室發(fā)力！讓機(jī)器人告訴你5秒后的世界