谷歌人工智能唇讀術(shù)完虐人類,僅憑5千小時(shí)電視節(jié)目!
人工智能搶人類飯碗的趨勢(shì)越來(lái)越明顯了,最近,它又瞄準(zhǔn)了一個(gè)新行業(yè),而且一出手就比該行業(yè)專家們做的好。
【編者按】本文轉(zhuǎn)載自DeepTech深科技;作者:十三、星際寶貝。
人工智能搶人類飯碗的趨勢(shì)越來(lái)越明顯了,最近,它又瞄準(zhǔn)了一個(gè)新行業(yè),而且一出手就比該行業(yè)專家們做的好。
主角還是 AI 大咖谷歌DeepMind,這次他們與英國(guó)牛津大學(xué)合作,通過(guò)機(jī)器學(xué)習(xí)大量的 BBC 節(jié)目,來(lái)學(xué)習(xí)一項(xiàng)全新的技能:唇讀術(shù)??膳碌氖?,人工智能不僅學(xué)會(huì)了,而且讓唇讀專家們自愧不如。
唇讀是人類一項(xiàng)獨(dú)特的技藝,也是非常困難的一件事,它對(duì)于語(yǔ)言語(yǔ)境和知識(shí)理解的要求并不亞于視覺(jué)上的線索,然而 AI 又做到了。
AI 系統(tǒng)的學(xué)習(xí)對(duì)象是近 5000 小時(shí)的 BBC 各類節(jié)目,包括 Newsnight、BBC Breakfast、Question Time 等,所有視頻資料加起來(lái)約有 11.8 萬(wàn)句話。
谷歌DeepMind 和牛津大學(xué)的聯(lián)合研究團(tuán)隊(duì)使用了 2010 年 1 月至 2015 年 12 月間的電視節(jié)目素材對(duì) AI 系統(tǒng)進(jìn)行訓(xùn)練,然后使用 2016 年 3 月- 9 月間播出的節(jié)目進(jìn)行 AI 性能測(cè)試。
BBC節(jié)目數(shù)據(jù)庫(kù)。從左至右分別為:頻道、節(jié)目名稱、小時(shí)數(shù)、句數(shù)
通過(guò)觀察節(jié)目中說(shuō)話者的唇形,AI 系統(tǒng)可以準(zhǔn)確解讀出文字,比如下面這些比較“拗口”的句子:“我們知道也將有上百位記者會(huì)出席”(We know there will be hundreds of journalists here as well),以及“根據(jù)國(guó)家統(tǒng)計(jì)局的最新統(tǒng)計(jì)數(shù)據(jù)”(According to thelatest figures from the Office of National Statistics)。
DT 君試讀了以上英文語(yǔ)句,發(fā)現(xiàn)唇形變化其實(shí)并不明顯,而且電視節(jié)目中的語(yǔ)速是非??斓模?strong>難度可想而知。
BBC節(jié)目數(shù)據(jù)庫(kù)中無(wú)字幕原片
由谷歌DeepMind AI系統(tǒng)通過(guò)唇讀同步的字幕
AI能力再升級(jí)
測(cè)試結(jié)果的具體數(shù)據(jù)可能更能說(shuō)明問(wèn)題:在 2016 年 3 月-9 月的節(jié)目庫(kù)中隨機(jī)選取的 200 個(gè)說(shuō)話場(chǎng)景唇讀對(duì)比測(cè)試中,人類專家的完全準(zhǔn)確率為12.4%,而AI的完全準(zhǔn)確率為46.8%。
而且 AI 所犯錯(cuò)誤中有很多其實(shí)無(wú)關(guān)緊要,比如在復(fù)數(shù)后面漏掉一個(gè)“s”之類。不過(guò)哪怕是這樣,AI 還是完虐了人類唇讀專家。
人工智能業(yè)內(nèi)專家稱,“這絕對(duì)是建構(gòu)全自動(dòng)唇讀系統(tǒng)的第一步!現(xiàn)有的各類龐大數(shù)據(jù)庫(kù)完全可以支持深度學(xué)習(xí)技術(shù)的發(fā)展。”
上方彩色圖片為BBC節(jié)目數(shù)據(jù)庫(kù)原始靜態(tài)圖片,下方黑白圖片為兩個(gè)不同的人說(shuō)出“afternoon”(下午)這個(gè)單詞時(shí)的唇型
兩周前,牛津大學(xué)曾開(kāi)發(fā)了一個(gè)類似的深度學(xué)習(xí)系統(tǒng)LipNet,這套系統(tǒng)當(dāng)時(shí)就已93.4%對(duì)52.3%大比分擊敗了人類唇讀專家,但還不太說(shuō)明問(wèn)題,畢竟,LipNet和人類的競(jìng)賽是基于GRID語(yǔ)料庫(kù),這個(gè)數(shù)據(jù)庫(kù)只包含51個(gè)特殊詞匯。
而DeepMind這次選取的BBC節(jié)目數(shù)據(jù)庫(kù)卻包含了驚人的17500個(gè)特殊詞匯,對(duì)人工智能來(lái)說(shuō),這無(wú)疑是艱巨的挑戰(zhàn)。
GRID語(yǔ)料庫(kù)中的音視頻數(shù)據(jù)相對(duì)簡(jiǎn)單得多
除此之外,BBC節(jié)目數(shù)據(jù)庫(kù)中包含了人類在正常說(shuō)話時(shí)使用的各種語(yǔ)法,而GRID語(yǔ)料庫(kù)的33000個(gè)句子都采用相同表達(dá),這使得句子很容易被預(yù)測(cè),難度也相對(duì)低得多。
DeepMind和牛津大學(xué)的研究團(tuán)隊(duì)將開(kāi)放BBC節(jié)目數(shù)據(jù)庫(kù)供同行使用。來(lái)自LipNet的 Yannis Assael 表示將率先使用這一數(shù)據(jù)庫(kù)來(lái)訓(xùn)練自己的唇讀AI系統(tǒng)。
把嘴唇排列起來(lái)
如果要通過(guò) BBC 節(jié)目這一類的視頻數(shù)據(jù)庫(kù)來(lái)訓(xùn)練自動(dòng)唇讀系統(tǒng),必須要讓機(jī)器預(yù)先學(xué)習(xí)每一個(gè)視頻片段。可問(wèn)題是,節(jié)目中的視頻流與音頻流往往不是完全同步的,甚至?xí)霈F(xiàn)多達(dá)1秒左右的時(shí)間差。
簡(jiǎn)單地說(shuō),這會(huì)讓機(jī)器徹底蒙圈,因?yàn)橐曨l里出現(xiàn)的唇形沒(méi)辦法和音頻完美貼合,機(jī)器就無(wú)法將某一特定唇形和其發(fā)音對(duì)號(hào)入座。這樣看來(lái),AI 學(xué)習(xí)唇讀術(shù)好像是不可能的。
解決這一問(wèn)題的方案是讓計(jì)算機(jī)先學(xué)會(huì)那些完全同步的音視頻流,掌握發(fā)音與唇形間的關(guān)聯(lián),然后自行推斷音視頻流中那些畫面是不同步的,再進(jìn)行自動(dòng)修正。DeepMind的 AI 系統(tǒng)自動(dòng)處理的 5000 小時(shí)音視頻流就是采用的這種方法。如果完全使用人工來(lái)進(jìn)行同步校準(zhǔn),工作量簡(jiǎn)直大到不可想象。
DeepMind采用的“看、聽(tīng)、嘗試、拼寫”架構(gòu)。首先解碼出一個(gè)特征yi及兩個(gè)向量,再通過(guò)向量去定位對(duì)應(yīng)的輸入音頻視頻流序列
好了,問(wèn)題來(lái)了,AI 唇讀本事這么大,到底會(huì)被用來(lái)干嘛?DT 君腦子里首先出現(xiàn)的畫面就是:“天網(wǎng)”默默監(jiān)視著全人類的談話,只要看看嘴型就知道你在說(shuō)什么……
雖然細(xì)思恐極,但專家說(shuō)了,說(shuō)到監(jiān)聽(tīng)這事兒,與其如此大動(dòng)干戈,還不如超遠(yuǎn)程監(jiān)聽(tīng)麥克風(fēng)來(lái)得簡(jiǎn)單直接效果好。所以,目前來(lái)看,沒(méi)什么好害怕的。
相比之下,AI 唇讀技術(shù)更可能的應(yīng)用方向是消費(fèi)類電子設(shè)備,可以讓設(shè)備知道用戶想要說(shuō)什么,哪怕不發(fā)出聲音。“動(dòng)動(dòng)嘴皮子”這種事兒搞不好會(huì)成為未來(lái)人機(jī)交互的常態(tài)。
來(lái)自牛津大學(xué) LipNet 研究團(tuán)隊(duì)的Yannis Assael對(duì)此技術(shù)的評(píng)價(jià)是:“我們相信AI唇讀技術(shù)是一種非常實(shí)用的輔助性技術(shù),比如更智能的助聽(tīng)器、不便出聲的公共場(chǎng)合(Siri再也不用聽(tīng)見(jiàn)你的聲音了),以及在嘈雜環(huán)境下精準(zhǔn)的語(yǔ)音識(shí)別等。”
最后,小編拿出彩蛋一枚,供各位測(cè)試唇讀之用。
最后,記得關(guān)注微信公眾號(hào):鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新
