南京大學(xué)機器學(xué)習(xí)與數(shù)據(jù)挖掘所ECCV16視頻性格分析競賽冠軍技術(shù)分享
基于第一印象 表象的性格自動分析是計算機視覺和多媒體領(lǐng)域中一類非常重要的研究問題。
英文中有句諺語叫:“You never get a second chance to make a first impression.”(你永遠沒有第二個機會去改變你的第一印象。)一個人的第一印象可以用來快速判斷其性格特征(Personal traits)及其復(fù)雜的社交特質(zhì),如友善、和藹、強硬和控制欲等等。因此,在人工智能大行其道的當(dāng)下,基于第一印象/表象的性格自動分析也成為計算機視覺和多媒體領(lǐng)域中一類非常重要的研究問題。
前不久,歐洲計算機視覺大會(ECCV 2016)ChaLearn Looking at People Workshop 就舉辦了一場全球范圍的(視頻)表象性格分析競賽(Apparent personality analysis)。歷時兩個多月,我們的參賽隊(NJU-LAMDA)在86個參賽者,其中包括有印度“科學(xué)皇冠上的瑰寶”之稱的 Indian Institutes of Technology (IIT)和荷蘭名校Radboud University等勁旅中脫引而出,斬獲第一。在此與大家分享我們的競賽模型和比賽細節(jié)。
問題重述
本次ECCV競賽提供了平均長度為15秒的10000個短視頻,其中6000個為訓(xùn)練集,2000個為驗證集,剩余2000個作為測試。比賽要求通過對短視頻中人物表象(表情、動作及神態(tài)等)的分析來精確預(yù)測人的五大性格特質(zhì),即Big Five Traits,其中包括:經(jīng)驗開放性(Openness to experience)、盡責(zé)性(Conscientiousness)、外向性(Extraversion)、親和性(Agreeableness)和情緒不穩(wěn)定性(Neuroticism)。視頻示例如下所示:
競賽數(shù)據(jù)中五大性格特質(zhì)的真實標記(Ground truth)通過Amazon Mechanical Turk人工標注獲得,每個性格特質(zhì)對應(yīng)一個0~1之間的實值。
我們的方法
由于競賽數(shù)據(jù)為短視頻,我們很自然的把它作為雙模態(tài)(Bimodal)的數(shù)據(jù)對象來進行處理,其中一個模態(tài)為音頻信息(Audio cue),另一個則為視覺信息(Visual cue)。同時,需預(yù)測的五大性格特質(zhì)均為連續(xù)值,因此我們將整個問題形式化為一個回歸問題(Regression)。我們將提出的這個模型框架稱作雙模態(tài)深度回歸(Deep Bimodal Regression,DBR)模型。下面分別從兩個模態(tài)的處理和最后的模態(tài)融合來解析DBR。
視覺模態(tài)
在視覺模態(tài)中,考慮到對于短視頻類數(shù)據(jù),時序信息的重要程度并不顯著,我們采取了更簡單有效的視頻處理方式,即直接將視頻隨機抽取若干幀(Frame),并將其作為視覺模態(tài)的原始輸入。當(dāng)然,在DBR中,視覺模態(tài)的表示學(xué)習(xí)部分不能免俗的使用了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)。同時,我們在現(xiàn)有網(wǎng)絡(luò)基礎(chǔ)上進行了改進,提出了描述子融合網(wǎng)絡(luò)(Descriptor Aggregation Networks,DAN),從而取得了更好的預(yù)測性能。
以VGG-16為例,傳統(tǒng)CNN經(jīng)過若干層卷積(Convolutional)、池化(Pooling)的堆疊,其后一般是兩層全鏈接層(Fully connected layers)作為網(wǎng)絡(luò)的分類部分,最終輸出結(jié)果。
受到我們最近工作[2]的啟發(fā),在DBR視覺模態(tài)的CNN中,我們?nèi)拥袅藚?shù)冗余的全鏈接層,取而代之的是將最后一層卷積層學(xué)到的深度描述子(Deep descriptor)做融合(Aggregation),之后對其進行L2規(guī)范化(L2-normalization),最后基于這樣的圖像表示做回歸(fc+sigmoid作為回歸層),構(gòu)建端到端(End-to-end)的深度學(xué)習(xí)回歸模型。另外,不同融合方式也可視作一種特征層面的集成(Ensemble)。如下圖,在DAN中,我們對最后一層卷積得到的深度描述子分別進行最大(Max)和平均(Average)的全局池化(Global pooling)操作,之后對得到的融合結(jié)果分別做L2規(guī)范化,接下來將兩支得到的特征級聯(lián)(concatenation)后作為最終的圖像表示(Image representation)。
傳統(tǒng)CNN中,80%的參數(shù)存在于全鏈接層,而DAN摒棄了全鏈接,使得DAN相比傳統(tǒng)CNN模型擁有更少的參數(shù),同時大幅減少的參數(shù)可加速模型的訓(xùn)練速度。另外,全局池化帶來了另一個優(yōu)勢即最終的圖像表示(512維)相比傳統(tǒng)全鏈接層(4096維)有了更低的維度,有利于模型的可擴展性以處理海量(Large-scale)數(shù)據(jù)。
此外,為了集成多層信息(Multiple layer ensemble),在DAN基礎(chǔ)上我們提出了可端到端訓(xùn)練的DAN+。具體而言,是對ReLU5_2層的深度描述子做上述同樣操作,得到對應(yīng)于 ReLU5_2的圖像表示,將其與Pool5層的DAN得到的圖像表示進行二次級聯(lián),最終的向量維度為 2048 維。
除DAN和DAN+外,在視覺模態(tài)中,我們還利用了著名的殘差網(wǎng)絡(luò)(Residual Networks)作為模型集成的另一部分。
音頻模態(tài)
語音處理中的一種常用的特征為MFCC特征,在競賽模型中,我們首先從視頻中提取原始語音作為輸入數(shù)據(jù),之后對其抽取MFCC特征。在此需要指出的是,抽取MFCC過程的一個副產(chǎn)品是一種名為logfbank特征,如下圖所示:
在抽取logfbank和MFCC特征后,我們同樣采取mini-batch形式的訓(xùn)練方式訓(xùn)練線性回歸器(Linear regression)。在競賽中,我們發(fā)現(xiàn)logfbank相比MFCC有更優(yōu)秀的預(yù)測效果,如下圖所示。其縱軸為回歸錯誤率(越低越好),其橫軸為訓(xùn)練輪數(shù),可以發(fā)現(xiàn)logfbank在最終的回歸錯誤率上相比MFCC有近0.5%的提升。
于是我們選取 logfbank特征作為音頻模態(tài)的特征表示以預(yù)測音頻模態(tài)的回歸結(jié)果。由于競賽時間和精力有限,我們在比賽中未使用語音處理領(lǐng)域的深度學(xué)習(xí)模型。不過,這也是后續(xù)可以提高模型性能的一個重要途徑。
模態(tài)融合(Modality ensemble)
待兩個模態(tài)的模型訓(xùn)練完畢,可以得到不同模態(tài)不同模型的性格特質(zhì)預(yù)測結(jié)果,比賽中我們將其無權(quán)重的平均作為該視頻最終的性格特質(zhì)預(yù)測結(jié)果,如圖:
競賽結(jié)果
比賽中,我們對一個視頻抽取100 幀/張圖像作為其視覺模態(tài)的輸入,對應(yīng)的原始音頻作為抽取logfbank特征的語料。訓(xùn)練階段,針對視覺模態(tài),其100張圖像共享對應(yīng)的性格特質(zhì)真實標記;預(yù)測階段,其100張圖像的平均預(yù)測值將作為該視頻視覺模態(tài)的預(yù)測結(jié)果。
經(jīng)下表對比,可以清楚看到,DAN相比VGG-Face,由于沒有了冗余的全鏈接層,其參數(shù)只有VGG-Face的約十分之一,而回歸預(yù)測準確率卻優(yōu)于傳統(tǒng)VGG模型,同時特征維度大大減少。此外,相比ResNet,我們提出的模型DAN和DAN+也有不俗表現(xiàn)。此外,在模型預(yù)測速度上,DAN和DAN+也快于VGG和ResNet。
模態(tài)集成后,我們在五個性格特質(zhì)預(yù)測上取得了四個結(jié)果的第一,同時我們也取得了總成績的冠軍。
模型分析
最后,我們將模型最后一層卷積/池化的特征做了可視化??梢园l(fā)現(xiàn)ResNet僅僅將“注意力”聚焦在了視頻中的人物上,而我們的DAN和DAN+不僅可以“注意”到人,同時可以將環(huán)境和動作信息結(jié)合起來進行表象性格預(yù)測。另外值得一提的是,其余參賽隊均做了人臉檢測等預(yù)處理操作,從而將人物從視頻中“摳”出,但是這樣的操作反而降低了整個性格特質(zhì)預(yù)測的性能。俗話說“氣由心生”,一個人所處的環(huán)境(尤其是臥室、辦公室等私人場所)往往可以從側(cè)面反映一個人的性格特性。
參考文獻
[1]Victor Ponce-Lopez, Baiyu Chen, Marc Oliu, Ciprian Cornearu, Albert Clapes, Isabelle Guyon, Xavier Baro, Hugo Jair Escalante and Sergio Escalera. ChaLearn LAP 2016: First Round Challenge on First Impressions - Dataset and Results. European Conference on Computer Vision, 2016.
[2]Xiu-Shen Wei, Chen-Wei Xie and Jianxin Wu. Mask-CNN: Localizing Parts and Selecting Descriptors for Fine-Grained Image Recognition. arXiv:1605.06878, 2016.
[3]Chen-Lin Zhang, Hao Zhang, Xiu-Shen Wei and Jianxin Wu. Deep Bimodal Regression for Apparent Personality Analysis. European Conference on Computer Vision, 2016.
【編者按】本文轉(zhuǎn)自新智元。來源:深度學(xué)習(xí)大講堂,作者:魏秀參
作者簡介:魏秀參,為本次競賽NJU-LAMDA參賽隊Team Director。南京大學(xué)計算機系機器學(xué)習(xí)與數(shù)據(jù)挖掘所(LAMDA)博士生,研究方向為計算機視覺和機器學(xué)習(xí)。曾在國際頂級期刊和會議發(fā)表多篇學(xué)術(shù)論文,并多次獲得國際計算機視覺相關(guān)競賽冠亞軍,另撰寫的「Must Know Tips/Tricks in Deep Neural Networks」受邀發(fā)布于國際知名數(shù)據(jù)挖掘論壇 KDnuggets 等。 微博ID:Wilson_NJUer
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅(qū)動創(chuàng)新
