微軟亞洲研究院計(jì)算視覺(jué)組負(fù)責(zé)人華剛：如何做好計(jì)算機(jī)視覺(jué)的研究

韓璐 9年前 (2016-12-06)

想知道如何做好“計(jì)算機(jī)視覺(jué)”，先得知道“如何做好研究”。

作者簡(jiǎn)介

華剛博士是微軟亞洲研究院資深研究員，現(xiàn)任微軟亞洲研究院計(jì)算視覺(jué)組負(fù)責(zé)人。他的研究重點(diǎn)是計(jì)算機(jī)視覺(jué)、模式識(shí)別、機(jī)器學(xué)習(xí)、人工智能和機(jī)器人，以及相關(guān)技術(shù)在云和移動(dòng)智能領(lǐng)域的創(chuàng)新應(yīng)用。他因在圖像和視頻中無(wú)限制環(huán)境人臉識(shí)別研究做出的突出貢獻(xiàn)，于2015年被國(guó)際模式識(shí)別聯(lián)合會(huì)（International Association on Pattern Recognition）授予”生物特征識(shí)別杰出青年研究員”獎(jiǎng)勵(lì)，因其在計(jì)算機(jī)視覺(jué)和多媒體研究方面的杰出貢獻(xiàn)，于2016年被遴選為國(guó)際模式識(shí)別聯(lián)合會(huì)院士（IAPR Fellow）和國(guó)際計(jì)算機(jī)聯(lián)合會(huì)杰出科學(xué)家（ACM Distinguished Scientist）。華剛博士已在國(guó)際頂級(jí)會(huì)議和期刊上發(fā)表了120多篇同行評(píng)審論文。他將擔(dān)任2019國(guó)際模式識(shí)別和計(jì)算機(jī)視覺(jué)大會(huì) （CVPR 2019）的程序主席，以及CVPR 2017和ACM MM 2017的領(lǐng)域主席。

此前華剛博士曾擔(dān)任CVPR 2014、ICCV 2011、ACM MM 2011/ 2012/ 2015、ICIP 2012/2013/2015/2016、ICASSP 2012/ 2013等十多個(gè)頂級(jí)國(guó)際會(huì)議的領(lǐng)域主席，以及IEEE Trans. on Image Processing（2010-2014）編委。目前，華剛博士還擔(dān)任著IEEE Trans. on Image Processing、IEEE Trans. on Circuits Systems and Video Technologies、IEEE Multimedia、CVIU、MVA和VCJ的編委。

“如何做好計(jì)算機(jī)視覺(jué)的研究？”

要回答這個(gè)問(wèn)題，我們先要對(duì)這個(gè)問(wèn)題的關(guān)鍵詞進(jìn)行分析：如果去掉“計(jì)算機(jī)視覺(jué)”這個(gè)限定詞，這問(wèn)題就變成了“如何做好研究？”那么，要回答這個(gè)問(wèn)題，我們就要知道“什么是好的研究？”而要定義什么是好的研究，必須回到根本，先要知道“什么是研究？”

我們的討論就從這個(gè)問(wèn)題開(kāi)始。

什么是研究？

一個(gè)被普遍接受的對(duì)研究的廣義定義為：研究是為了產(chǎn)生新的知識(shí)或者是為已有的知識(shí)設(shè)計(jì)新的應(yīng)用的系統(tǒng)性的工作。因?yàn)槲覀兘裉斓挠懻撈鋵?shí)更多集中在科學(xué)研究上，先確定狹義的研究的定義為：利用科學(xué)的方法來(lái)調(diào)查解釋一個(gè)現(xiàn)象或者獲取新的知識(shí)。

綜合這兩個(gè)定義，可以看到科學(xué)研究從本質(zhì)上是由三個(gè)基本的要素構(gòu)成：1）目的：產(chǎn)生新的知識(shí)或者是設(shè)計(jì)出新的應(yīng)用; 2）手段：科學(xué)的方法。缺少這兩個(gè)要素任何之一都不構(gòu)成科學(xué)研究; 3）成果：新的知識(shí)。所謂新的知識(shí)，必須是前人不知道的東西。

我們很多同學(xué)和年輕的研究員認(rèn)為研究就是寫(xiě)論文、研究成果就是論文，這其實(shí)是在觀念上走進(jìn)了一個(gè)誤區(qū)。論文是系統(tǒng)闡述新的知識(shí)、新的應(yīng)用，以及闡述獲取這個(gè)新知識(shí)或者新應(yīng)用用到了什么樣的科學(xué)方法的一個(gè)載體。論文，作為闡述研究成果的主要手段，必須經(jīng)過(guò)同行的評(píng)議通過(guò)才能正式發(fā)表和被認(rèn)可。

在人工智能進(jìn)入第三個(gè)熱潮之際，我們看到各種各樣關(guān)于AI的各種媒體報(bào)道層出不窮，一方面，這對(duì)大眾普及了AI各方面的知識(shí)，是積極的。但從另一個(gè)方面講，很多觀點(diǎn)沒(méi)有經(jīng)過(guò)仔細(xì)的推敲，也沒(méi)有同行的評(píng)議，一些謬誤或者是夸大的觀點(diǎn)可能因?yàn)閺V泛傳播而被大眾接受，結(jié)果產(chǎn)生負(fù)面的社會(huì)影響。這就提醒我們相關(guān)領(lǐng)域的研究人員，在對(duì)大眾媒體去做一些評(píng)論的時(shí)候，必須仔細(xì)斟酌，盡量不傳播沒(méi)有得到檢驗(yàn)的觀點(diǎn)。

這就談到第二個(gè)問(wèn)題：

什么是好的研究？

不同領(lǐng)域的研究員對(duì)這個(gè)問(wèn)題可能會(huì)有不同的看法。

從計(jì)算機(jī)科學(xué)的角度來(lái)講，尤其是計(jì)算機(jī)視覺(jué)的研究，無(wú)論是理論的還是實(shí)踐的，我們的研究成果最終是要解決現(xiàn)實(shí)世界的問(wèn)題的。在這個(gè)方面，我印象比較深刻的還是我在西安交通大學(xué)讀研究生的時(shí)候，沈向洋博士2001年在西安交大做報(bào)告提到的一個(gè)觀點(diǎn)：最好的研究員發(fā)現(xiàn)新問(wèn)題；好的研究員創(chuàng)造新方法解好問(wèn)題；一般的研究員跟隨別人的方法解問(wèn)題——大家在多次這里看到“新”這個(gè)關(guān)鍵詞，創(chuàng)新是研究的本質(zhì)。

有了這些鋪墊，我們首先定義什么是最好的研究。通常認(rèn)為一個(gè)領(lǐng)域中對(duì)于某一個(gè)問(wèn)題最好的研究工作有三種：第一篇論文（The First Paper），最好的一篇論文（The Best Paper），以及最后一篇論文（The Last Paper）。這第一篇論文的含義是說(shuō)這篇論文率先提出了一個(gè)好的問(wèn)題和方向。最好的一篇論文是什么？那一定是開(kāi)創(chuàng)性地提出了一種解法，啟發(fā)了最終解決這個(gè)問(wèn)題的途徑。至于最后一篇論文，那一定是徹底把這個(gè)問(wèn)題解決了，從此以后這個(gè)問(wèn)題不再需要繼續(xù)做進(jìn)一步的研究。

從計(jì)算機(jī)視覺(jué)領(lǐng)域舉一個(gè)具體的例子來(lái)講，Harris Corner Detector屬于最早的一批在圖像中檢測(cè)角點(diǎn)的論文，可以歸為第一篇之列。David Lowe博士的SIFT特征檢測(cè)和局部描述子，可以歸為在這個(gè)方向上最好的論文之列。那么這個(gè)方向的最后一篇呢？我認(rèn)為可能還沒(méi)有出現(xiàn)。具體到我自己的研究工作，在局部描述子這個(gè)方向上，我跟我的同事Matthew Brown和Simon Winder在2007年到2009年之間所做的一系列用機(jī)器學(xué)習(xí)的方法來(lái)建立描述子的工作，也實(shí)際上為提高局部描述子的性能提供了一個(gè)新的思路和方法。

對(duì)于我們很多研究員和學(xué)生來(lái)講，一輩子可能都做不到這三種最好的研究工作之一。那是不是就等于說(shuō)你不能做好的研究工作或者根本不用考慮做研究了呢？肯定不是這樣。科學(xué)研究是一個(gè)共同體。這些最好的研究工作也是在前面很多很多非常扎實(shí)（solid）的研究工作的基礎(chǔ)上發(fā)展出來(lái)的。因此，對(duì)于年青的研究員和學(xué)生而言，應(yīng)該胸懷大志，去追求做最好的研究工作，但從實(shí)際執(zhí)行上來(lái)講，還是要把一項(xiàng)一項(xiàng)具體的工作先做扎實(shí)了。

怎么做到把研究工作做扎實(shí)了？首先，你必須對(duì)你要解的問(wèn)題有一個(gè)全面深刻的了解，包括為什么要解這個(gè)問(wèn)題、解這個(gè)問(wèn)題有什么意義呢、以前有沒(méi)有試圖解決同樣或者類(lèi)似問(wèn)題的先例，如果有，你就要全面了解前人都提出了什么樣的解法、他們的解法都有什么樣的優(yōu)勢(shì)和缺陷……最后，你的解法解決了前面這些解法不能解決的問(wèn)題呢，或者是你的解法處理了什么樣的他們不能處理的缺陷了？這些問(wèn)題的答案如果都有了，那么，在寫(xiě)論文的過(guò)程中要注意的就是，1）你的假設(shè)是什么？2）你怎么驗(yàn)證了你的假設(shè)？這個(gè)驗(yàn)證既可以是理論上的證明，也可以是實(shí)驗(yàn)的驗(yàn)證。我們很多學(xué)生和年青的研究員，寫(xiě)論文的時(shí)候沒(méi)有找到內(nèi)在的邏輯關(guān)系，很多觀點(diǎn)都是似是而非。或者說(shuō)重一點(diǎn)，在論文撰寫(xiě)方面的訓(xùn)練嚴(yán)重不足。你的研究如果到了寫(xiě)論文的階段，那就必須要有明確的觀點(diǎn)提出來(lái)。這個(gè)觀點(diǎn)必須明確無(wú)誤，只有這樣你才能被稱為形成了新的知識(shí)。你的每一個(gè)觀點(diǎn)都必須在理論上或者是實(shí)驗(yàn)中得到驗(yàn)證。另外，論文的撰寫(xiě)是為了讓人看懂，不是讓人看不懂，所以我們?cè)谧珜?xiě)過(guò)程中必須盡量保證不去假設(shè)讀者已經(jīng)擁有了某些方面的知識(shí)。做好了這些，基本上你就有很大的可能性能夠做出扎實(shí)（solid）的研究工作。

然后回到我們討論的主題：

如何做好計(jì)算機(jī)視覺(jué)的研究工作？

其實(shí)，要回答這個(gè)問(wèn)題，將我上面講的所有觀點(diǎn)加上“計(jì)算機(jī)視覺(jué)領(lǐng)域”這個(gè)限定詞就行了。我這兒結(jié)合計(jì)算機(jī)視覺(jué)研究的一些現(xiàn)狀及朱松純老師的一些觀點(diǎn)來(lái)進(jìn)一步談?wù)勎业挠^點(diǎn)。

首先談?wù)勎矣^察到的一些現(xiàn)象。很多年輕的學(xué)生，現(xiàn)在討論問(wèn)題的時(shí)候都用這樣的談話：我發(fā)現(xiàn)用FC6層的特征，比用FC7層的特征，在某個(gè)圖像數(shù)據(jù)集上比現(xiàn)在最好的算法提高了1.5%的識(shí)別精度，老師我們可以寫(xiě)論文了（如果大家不能理解這句話，F(xiàn)C6和FC7是表示AlexNet的兩個(gè)中間輸出層）。我想請(qǐng)問(wèn)，你在這個(gè)過(guò)程中發(fā)現(xiàn)了什么樣的普適的新的知識(shí)嗎，又或者，在不是普適的情況下，你在什么限定條件下一定能夠看到這樣的識(shí)別精度提高了？

不錯(cuò)，提高識(shí)別精度是一個(gè)很好的目標(biāo)，但要注意，計(jì)算機(jī)視覺(jué)的研究是要解決識(shí)別的問(wèn)題，不是解某一個(gè)圖像數(shù)據(jù)集。這些圖像數(shù)據(jù)集提供了很好的驗(yàn)證你的假設(shè)和方法的手段，但如果你沒(méi)有遵循科學(xué)的方法和和手段去設(shè)計(jì)你的算法和實(shí)驗(yàn)，你也不可能得到一個(gè)科學(xué)的結(jié)論，從而也不能產(chǎn)生新的知識(shí)，更不用談對(duì)這個(gè)領(lǐng)域做出貢獻(xiàn)。朱松純老師在他的評(píng)論中提到，很多學(xué)生認(rèn)為，計(jì)算機(jī)視覺(jué)現(xiàn)在就是調(diào)深度神經(jīng)網(wǎng)絡(luò)的參數(shù)，也就是說(shuō)的這個(gè)問(wèn)題。

所以，具體到對(duì)于剛開(kāi)始從事計(jì)算機(jī)視覺(jué)研究的學(xué)生來(lái)講，要做好這方面的研究，我覺(jué)得第一步還是要系統(tǒng)學(xué)習(xí)一下計(jì)算機(jī)視覺(jué)的課程，全面了解一下計(jì)算機(jī)視覺(jué)這個(gè)領(lǐng)域的來(lái)龍去脈、這個(gè)領(lǐng)域都有哪些基本的問(wèn)題、哪些問(wèn)題已經(jīng)解得比較成熟而哪些問(wèn)題還在初級(jí)階段……這里，推薦所有的學(xué)生學(xué)習(xí)兩本經(jīng)典教材《Computer Vision: A Modern Approach》和《Computer Vision: Algorithms and Applications》，可以先讀完第一本再讀第二本。

微軟亞洲研究院計(jì)算視覺(jué)組負(fù)責(zé)人華剛：如何做好計(jì)算機(jī)視覺(jué)的研究

只有對(duì)這個(gè)領(lǐng)域有了一個(gè)初步的全面了解，你才能夠找到自己感興趣的那個(gè)問(wèn)題。在眾多的問(wèn)題當(dāng)中，你是希望做三維重建，還是做圖像識(shí)別、物體跟蹤，又或是做計(jì)算攝影呢？做研究其實(shí)不是一個(gè)完全享樂(lè)的的過(guò)程，你必須要有足夠的興趣來(lái)保證你能持續(xù)地走下去，這在你感覺(jué)自己當(dāng)前研究的思路走不下去的時(shí)候尤其具有重要意義。當(dāng)你確定你感興趣的問(wèn)題，你應(yīng)該首先全面調(diào)研一下這個(gè)問(wèn)題的來(lái)龍去脈。這就意味著你不能只讀過(guò)去五年的論文。你可以從過(guò)去一年的論文開(kāi)始，慢慢追溯回到過(guò)去很久的相關(guān)的論文。有些時(shí)候，你會(huì)驚訝地發(fā)現(xiàn)前人想問(wèn)題的深度。研究的英文單詞是Research，拆開(kāi)是Re-Search，用中文直譯就是重新搜索和發(fā)現(xiàn)，而不是直接發(fā)現(xiàn)，其實(shí)就是說(shuō)你要首先對(duì)這個(gè)問(wèn)題做追本溯源。朱松純老師提到的我們很多學(xué)生現(xiàn)在不讀五年以前的論文，說(shuō)的也是這個(gè)道理。

當(dāng)你做好了這些，你必須鉆進(jìn)計(jì)算視覺(jué)的一個(gè)小的領(lǐng)域。人的精力是有限的，這就意味著你不可能把很多事情同時(shí)做好，所以在你選好方向之后，就要把你的精力集中在你感興趣的一個(gè)問(wèn)題上，努力成為這個(gè)方面的專(zhuān)家。研究是一項(xiàng)長(zhǎng)跑，很多時(shí)候，你在一個(gè)方向上比別人堅(jiān)持久一點(diǎn)，你就有機(jī)會(huì)超越他而成為某個(gè)方面的專(zhuān)家。

最后，我也來(lái)談?wù)勆疃葘W(xué)習(xí)對(duì)計(jì)算機(jī)視覺(jué)的影響。在這里，我對(duì)馬里蘭大學(xué)Rama Chellapa教授在Tom Huang教授80歲生日論壇上表達(dá)的觀點(diǎn)非常認(rèn)可，他認(rèn)為，深度學(xué)習(xí)網(wǎng)絡(luò)就像一個(gè)Pasta Machine：你把該放的東西放進(jìn)去，它能給你產(chǎn)生好吃的Pasta。同時(shí)它也是一個(gè)Equalizer：無(wú)論你在計(jì)算機(jī)視覺(jué)領(lǐng)域有40年的經(jīng)驗(yàn)還是0年的經(jīng)驗(yàn)，只要你會(huì)用Caffee，你在一些問(wèn)題，比方說(shuō)圖像識(shí)別上，都能產(chǎn)生差不多的結(jié)果。他開(kāi)玩笑說(shuō)這有點(diǎn)傷自尊（It hurts my ego?。?，但我們還是應(yīng)該把它作為一個(gè)好的工具擁抱它。我想，他的言外之意，是我們的研究應(yīng)該做得更深，要去理解這個(gè)工具為什么能夠工作得比較好，從而產(chǎn)生新的知識(shí)去指導(dǎo)將來(lái)的研究和應(yīng)用。

我認(rèn)為，對(duì)于年輕的學(xué)生來(lái)講，從深度學(xué)習(xí)的方法開(kāi)始學(xué)習(xí)沒(méi)有什么問(wèn)題，但必須要進(jìn)一步去了解一下其他的數(shù)學(xué)和算法工具，像統(tǒng)計(jì)貝葉斯的方法、優(yōu)化的方法、信號(hào)處理的方法等等等的。計(jì)算機(jī)視覺(jué)的問(wèn)題，其本質(zhì)是不適定的反問(wèn)題，解這一類(lèi)問(wèn)題需要多種方法的結(jié)合。這里面有深度學(xué)習(xí)解得比較好的問(wèn)題，像圖像識(shí)別，也有深度學(xué)習(xí)解不了的問(wèn)題，像三維重建和識(shí)別。

任何研究領(lǐng)域包括計(jì)算機(jī)視覺(jué)的研究，對(duì)處在研究初期的學(xué)生而言，更重要的是掌握足夠的數(shù)學(xué)工具，培養(yǎng)一種正式思維（Formal Thinking）的能力，這樣，遇到實(shí)際的問(wèn)題就能以一種理論上正確的思路去解決這個(gè)問(wèn)題。

作為結(jié)束語(yǔ)，我想對(duì)在從事或者有志于從事計(jì)算機(jī)視覺(jué)研究的學(xué)生說(shuō)，計(jì)算機(jī)視覺(jué)的研究處在一個(gè)非常好的時(shí)期，有很多我們?cè)瓉?lái)解不了的問(wèn)題現(xiàn)在能夠解得比較好了，像人臉識(shí)別，盡管我們其實(shí)還沒(méi)有從真正意義上達(dá)到人類(lèi)視覺(jué)系統(tǒng)對(duì)人臉識(shí)別的魯棒程度。但我們離真正讓計(jì)算機(jī)能夠像人看和感知這個(gè)世界還有很遠(yuǎn)的距離。在我們達(dá)到這個(gè)目標(biāo)之前，深度學(xué)習(xí)的方法可能是這個(gè)過(guò)程中一個(gè)重要的墊腳石，同時(shí)我們還要將更多的新的方法和工具帶入這個(gè)領(lǐng)域來(lái)進(jìn)一步推動(dòng)這個(gè)領(lǐng)域的發(fā)展。

【編者按】本文轉(zhuǎn)自新智元。來(lái)源：微軟研究院AI頭條，作者：華剛。

最后，記得關(guān)注微信公眾號(hào)：鎂客網(wǎng)（im2maker），更多干貨在等你！

鎂客網(wǎng)

科技 | 人文 | 行業(yè)

微信ID：im2maker

長(zhǎng)按識(shí)別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新

国内精品久久影院综合日日,中文字幕乱码亚洲无线三区,欧美亚洲综合成人专区,51久久夜色精品国产水果派解说,国语自产精品视频在线第100页

微軟亞洲研究院計(jì)算視覺(jué)組負(fù)責(zé)人華剛：如何做好計(jì)算機(jī)視覺(jué)的研究

什么是研究？

什么是好的研究？

如何做好計(jì)算機(jī)視覺(jué)的研究工作？

最新文章

注冊(cè)

国内精品久久影院综合日日,中文字幕乱码亚洲无线三区,欧美亚洲综合成人专区,51久久夜色精品国产水果派解说,国语自产精品视频在线第100页

微軟亞洲研究院計(jì)算視覺(jué)組負(fù)責(zé)人華剛：如何做好計(jì)算機(jī)視覺(jué)的研究

什么是研究？

什么是好的研究？

如何做好計(jì)算機(jī)視覺(jué)的研究工作？

最新文章

登錄

注冊(cè)

什么是研究？

什么是好的研究？