谷歌人工智能唇讀術(shù)完虐人類,僅憑5千小時電視節(jié)目!
人工智能搶人類飯碗的趨勢越來越明顯了,最近,它又瞄準了一個新行業(yè),而且一出手就比該行業(yè)專家們做的好。
【編者按】本文轉(zhuǎn)載自DeepTech深科技;作者:十三、星際寶貝。
人工智能搶人類飯碗的趨勢越來越明顯了,最近,它又瞄準了一個新行業(yè),而且一出手就比該行業(yè)專家們做的好。
主角還是 AI 大咖谷歌DeepMind,這次他們與英國牛津大學合作,通過機器學習大量的 BBC 節(jié)目,來學習一項全新的技能:唇讀術(shù)??膳碌氖?,人工智能不僅學會了,而且讓唇讀專家們自愧不如。
唇讀是人類一項獨特的技藝,也是非常困難的一件事,它對于語言語境和知識理解的要求并不亞于視覺上的線索,然而 AI 又做到了。
AI 系統(tǒng)的學習對象是近 5000 小時的 BBC 各類節(jié)目,包括 Newsnight、BBC Breakfast、Question Time 等,所有視頻資料加起來約有 11.8 萬句話。
谷歌DeepMind 和牛津大學的聯(lián)合研究團隊使用了 2010 年 1 月至 2015 年 12 月間的電視節(jié)目素材對 AI 系統(tǒng)進行訓練,然后使用 2016 年 3 月- 9 月間播出的節(jié)目進行 AI 性能測試。
BBC節(jié)目數(shù)據(jù)庫。從左至右分別為:頻道、節(jié)目名稱、小時數(shù)、句數(shù)
通過觀察節(jié)目中說話者的唇形,AI 系統(tǒng)可以準確解讀出文字,比如下面這些比較“拗口”的句子:“我們知道也將有上百位記者會出席”(We know there will be hundreds of journalists here as well),以及“根據(jù)國家統(tǒng)計局的最新統(tǒng)計數(shù)據(jù)”(According to thelatest figures from the Office of National Statistics)。
DT 君試讀了以上英文語句,發(fā)現(xiàn)唇形變化其實并不明顯,而且電視節(jié)目中的語速是非常快的,難度可想而知。
BBC節(jié)目數(shù)據(jù)庫中無字幕原片
由谷歌DeepMind AI系統(tǒng)通過唇讀同步的字幕
AI能力再升級
測試結(jié)果的具體數(shù)據(jù)可能更能說明問題:在 2016 年 3 月-9 月的節(jié)目庫中隨機選取的 200 個說話場景唇讀對比測試中,人類專家的完全準確率為12.4%,而AI的完全準確率為46.8%。
而且 AI 所犯錯誤中有很多其實無關(guān)緊要,比如在復(fù)數(shù)后面漏掉一個“s”之類。不過哪怕是這樣,AI 還是完虐了人類唇讀專家。
人工智能業(yè)內(nèi)專家稱,“這絕對是建構(gòu)全自動唇讀系統(tǒng)的第一步!現(xiàn)有的各類龐大數(shù)據(jù)庫完全可以支持深度學習技術(shù)的發(fā)展。”
上方彩色圖片為BBC節(jié)目數(shù)據(jù)庫原始靜態(tài)圖片,下方黑白圖片為兩個不同的人說出“afternoon”(下午)這個單詞時的唇型
兩周前,牛津大學曾開發(fā)了一個類似的深度學習系統(tǒng)LipNet,這套系統(tǒng)當時就已93.4%對52.3%大比分擊敗了人類唇讀專家,但還不太說明問題,畢竟,LipNet和人類的競賽是基于GRID語料庫,這個數(shù)據(jù)庫只包含51個特殊詞匯。
而DeepMind這次選取的BBC節(jié)目數(shù)據(jù)庫卻包含了驚人的17500個特殊詞匯,對人工智能來說,這無疑是艱巨的挑戰(zhàn)。
GRID語料庫中的音視頻數(shù)據(jù)相對簡單得多
除此之外,BBC節(jié)目數(shù)據(jù)庫中包含了人類在正常說話時使用的各種語法,而GRID語料庫的33000個句子都采用相同表達,這使得句子很容易被預(yù)測,難度也相對低得多。
DeepMind和牛津大學的研究團隊將開放BBC節(jié)目數(shù)據(jù)庫供同行使用。來自LipNet的 Yannis Assael 表示將率先使用這一數(shù)據(jù)庫來訓練自己的唇讀AI系統(tǒng)。
把嘴唇排列起來
如果要通過 BBC 節(jié)目這一類的視頻數(shù)據(jù)庫來訓練自動唇讀系統(tǒng),必須要讓機器預(yù)先學習每一個視頻片段??蓡栴}是,節(jié)目中的視頻流與音頻流往往不是完全同步的,甚至會出現(xiàn)多達1秒左右的時間差。
簡單地說,這會讓機器徹底蒙圈,因為視頻里出現(xiàn)的唇形沒辦法和音頻完美貼合,機器就無法將某一特定唇形和其發(fā)音對號入座。這樣看來,AI 學習唇讀術(shù)好像是不可能的。
解決這一問題的方案是讓計算機先學會那些完全同步的音視頻流,掌握發(fā)音與唇形間的關(guān)聯(lián),然后自行推斷音視頻流中那些畫面是不同步的,再進行自動修正。DeepMind的 AI 系統(tǒng)自動處理的 5000 小時音視頻流就是采用的這種方法。如果完全使用人工來進行同步校準,工作量簡直大到不可想象。
DeepMind采用的“看、聽、嘗試、拼寫”架構(gòu)。首先解碼出一個特征yi及兩個向量,再通過向量去定位對應(yīng)的輸入音頻視頻流序列
好了,問題來了,AI 唇讀本事這么大,到底會被用來干嘛?DT 君腦子里首先出現(xiàn)的畫面就是:“天網(wǎng)”默默監(jiān)視著全人類的談話,只要看看嘴型就知道你在說什么……
雖然細思恐極,但專家說了,說到監(jiān)聽這事兒,與其如此大動干戈,還不如超遠程監(jiān)聽麥克風來得簡單直接效果好。所以,目前來看,沒什么好害怕的。
相比之下,AI 唇讀技術(shù)更可能的應(yīng)用方向是消費類電子設(shè)備,可以讓設(shè)備知道用戶想要說什么,哪怕不發(fā)出聲音。“動動嘴皮子”這種事兒搞不好會成為未來人機交互的常態(tài)。
來自牛津大學 LipNet 研究團隊的Yannis Assael對此技術(shù)的評價是:“我們相信AI唇讀技術(shù)是一種非常實用的輔助性技術(shù),比如更智能的助聽器、不便出聲的公共場合(Siri再也不用聽見你的聲音了),以及在嘈雜環(huán)境下精準的語音識別等。”
最后,小編拿出彩蛋一枚,供各位測試唇讀之用。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅(qū)動創(chuàng)新
