南京大學(xué)人工智能學(xué)院教授俞揚(yáng):從應(yīng)用出發(fā)多角度設(shè)計(jì),可得更優(yōu)算法模型

Lynn 6年前 (2019-10-29)

俞揚(yáng)認(rèn)為學(xué)會(huì)思考應(yīng)用中真正面臨的問(wèn)題并從多角度去解決問(wèn)題,這很重要。

日前,“首屆中文NL2SQL挑戰(zhàn)賽”總決賽在南京大學(xué)計(jì)算機(jī)樓里落幕,南京大學(xué)人工智能學(xué)院教授俞揚(yáng)被邀請(qǐng)擔(dān)任評(píng)委。

對(duì)于公眾來(lái)說(shuō),NL2SQL是一個(gè)全新的技術(shù)方向,它是自然語(yǔ)言處理(NLP)與數(shù)據(jù)庫(kù)查詢應(yīng)用相結(jié)合的一個(gè)研究方向,是NLP技術(shù)研究范疇中的小分支。因此相較于AI領(lǐng)域內(nèi)的各大賽事,這場(chǎng)比賽稱不上“盛大”,但俞揚(yáng)認(rèn)為它對(duì)學(xué)術(shù)和產(chǎn)業(yè)界的價(jià)值是重大的。

南京大學(xué)人工智能學(xué)院教授俞揚(yáng):從應(yīng)用出發(fā)多角度設(shè)計(jì),可得更優(yōu)算法模型

圖 | 中文NL2SQL挑戰(zhàn)賽

“因?yàn)榻耆斯ぶ悄軜I(yè)界的關(guān)注點(diǎn)多在圖像(視覺(jué))上,相對(duì)而言,工業(yè)數(shù)據(jù)庫(kù)等離散信息的分析較為冷淡,所以在這個(gè)領(lǐng)域里,像這樣與具體應(yīng)用結(jié)合的比賽是有開創(chuàng)意義的。這一次能夠有這么多人來(lái)參加,也能夠引起大家的關(guān)注,是一件好事。”

作為人工智能領(lǐng)域知名學(xué)者兼導(dǎo)師,多重身份讓俞揚(yáng)從這場(chǎng)比賽中看見了很多。在會(huì)后接受采訪時(shí),他也談到了自己因觀賽而生出的對(duì)于技術(shù)發(fā)展的諸多思考并分享了有關(guān)人才培養(yǎng)、技術(shù)研究方向上的建議。

AI與應(yīng)用結(jié)合緊密大勢(shì)初顯

首先,俞揚(yáng)認(rèn)為比賽以NL2SQL為主題,某種程度上體現(xiàn)了業(yè)界對(duì)技術(shù)與應(yīng)用深度結(jié)合研究方向的重視,同時(shí)也是業(yè)內(nèi)對(duì)技術(shù)認(rèn)知日趨客觀的一種體現(xiàn)。

俞揚(yáng)指出,受到各方面因素影響,雖是AI算法與自然語(yǔ)言應(yīng)用結(jié)合的關(guān)鍵技術(shù)方向,但一直以來(lái)自然語(yǔ)言理解(NLP)相對(duì)計(jì)算機(jī)視覺(jué)等領(lǐng)域沒(méi)有那么火熱卻是事實(shí)。

南京大學(xué)人工智能學(xué)院教授俞揚(yáng):從應(yīng)用出發(fā)多角度設(shè)計(jì),可得更優(yōu)算法模型

圖 | 南京大學(xué)人工智能學(xué)院教授 俞揚(yáng)

回顧這一波AI算法浪潮我們?nèi)菀装l(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)在視覺(jué)領(lǐng)域的成功應(yīng)用起到了關(guān)鍵帶動(dòng)作用,隨后深度學(xué)習(xí)算法滲透到了各行各業(yè)。Google Trends曾發(fā)表數(shù)據(jù)指出,受深度學(xué)習(xí)算法影響,自2015年起,“機(jī)器學(xué)習(xí)”的搜索熱度一度超過(guò)了人工智能本身。

而在這一波熱潮中,因視覺(jué)領(lǐng)域是深度學(xué)習(xí)算法最開始發(fā)力的地方,大量產(chǎn)業(yè)和學(xué)界的資源涌入了計(jì)算機(jī)視覺(jué)(CV)領(lǐng)域。作為能夠解決傳統(tǒng)數(shù)據(jù)庫(kù)查詢的繁瑣問(wèn)題、有著實(shí)用價(jià)值的一項(xiàng)技術(shù),NL2SQL在此時(shí)被提出,也能夠吸引更多人的目光。

“從技術(shù)層面看,NL2SQL是將自然語(yǔ)言轉(zhuǎn)化為SQL語(yǔ)句的一項(xiàng)任務(wù),在研究領(lǐng)域是一個(gè)比較新的方向。但是它不僅僅是一個(gè)技術(shù)方向,更為重要的是它可以直接對(duì)應(yīng)到一些應(yīng)用上面,比如財(cái)務(wù)報(bào)表數(shù)據(jù)庫(kù),有人想知道里面的某一方面信息,運(yùn)用這項(xiàng)技術(shù),我們就可以用自然語(yǔ)言去提問(wèn),機(jī)器來(lái)回答,這樣會(huì)更高效便捷。”

正如俞揚(yáng)提到,NL2SQL是一個(gè)技術(shù)與應(yīng)用結(jié)合的產(chǎn)物。這場(chǎng)關(guān)于NL2SQL的大賽,其意義不僅僅在于對(duì)一項(xiàng)技術(shù)的推動(dòng),而是業(yè)內(nèi)對(duì)技術(shù)與應(yīng)用深度結(jié)合的重視。

從NL2SQL看技術(shù)落地

具體去看,NL2SQL是如何幫助改進(jìn)傳統(tǒng)數(shù)據(jù)庫(kù)查詢的?

俞揚(yáng)介紹說(shuō),在過(guò)去如果想要知道數(shù)據(jù)庫(kù)里面的信息,就需要有專業(yè)程序員去寫一段查詢數(shù)據(jù)庫(kù)的機(jī)器語(yǔ)言(SQL);現(xiàn)在,NL2SQL可以將自然語(yǔ)言自動(dòng)翻譯成機(jī)器語(yǔ)言(SQL)去查詢,然后把答案反饋給用戶。

“這大大降低了數(shù)據(jù)庫(kù)的使用門檻。”

以比賽中的案例來(lái)看,俞揚(yáng)提到選手用自然語(yǔ)言提問(wèn)“某地在某日的天氣是怎樣的”,程序可以自動(dòng)將問(wèn)題變成在計(jì)算機(jī)里面可以跑出結(jié)果的機(jī)器搜索語(yǔ)言,并查詢到結(jié)果。

俞揚(yáng)特別補(bǔ)充說(shuō),“類似這樣的案例都是能夠產(chǎn)生實(shí)際價(jià)值的,這對(duì)技術(shù)的應(yīng)用和推廣有著直接積極的影響。”但同時(shí)他也指出,透過(guò)比賽可以看出NL2SQL還有很大的提升空間,比如說(shuō)在算法泛化能力這一普遍關(guān)注點(diǎn)上。

“從大的方向來(lái)看,傳統(tǒng)的語(yǔ)義知識(shí)是不足以支撐商用的,更希望能夠引入一些常識(shí),引入一些數(shù)據(jù)庫(kù)里面沒(méi)有出現(xiàn)過(guò)的東西,讓它能夠?qū)W習(xí)判斷并應(yīng)用在對(duì)沒(méi)有見過(guò)的一些數(shù)據(jù)處理上,提升泛化能力。”

常識(shí)在這一次比賽中被反復(fù)提起,也是人工智能想要變得更加“聰明”所必須要彌補(bǔ)的部分。不過(guò)加入常識(shí)這件事并不容易。

“人有很多常識(shí),但我們往往不知道常識(shí)從哪里來(lái)??赡芤?yàn)槲覀儧](méi)有課本專門去學(xué)習(xí)常識(shí),所以就難以界定哪些東西是在我們的常識(shí)范圍內(nèi),因此一開始數(shù)據(jù)的收集就比較困難。比如雞有幾條腿、兔子有幾條腿的問(wèn)題,大家都知道答案,但是我們沒(méi)有在課本上學(xué)習(xí)過(guò),甚至什么時(shí)候獲得常識(shí)都不得而知。而當(dāng)機(jī)器要解決比如雞兔同籠問(wèn)題,就必須依賴這些常識(shí)知識(shí)。”

專業(yè)人才應(yīng)當(dāng)看得更為長(zhǎng)遠(yuǎn)

當(dāng)然,除了對(duì)技術(shù)發(fā)展和行業(yè)的關(guān)注,作為導(dǎo)師,俞揚(yáng)也更加關(guān)注人才培養(yǎng)。

此次比賽以學(xué)生給定程序的最終搜索精度為主要評(píng)定標(biāo)準(zhǔn),這有積極意義,自然也有其局限性。

南京大學(xué)人工智能學(xué)院教授俞揚(yáng):從應(yīng)用出發(fā)多角度設(shè)計(jì),可得更優(yōu)算法模型

基于過(guò)往的經(jīng)驗(yàn)和長(zhǎng)遠(yuǎn)的發(fā)展角度,俞揚(yáng)也特別給了學(xué)生一些自己的建議,因?yàn)槭潜荣?,選手們希望分越高越好,不過(guò)從長(zhǎng)期的角度來(lái)看,比賽用的方法能夠得到90但想要拿到最后的10分,可能往往需要顛覆現(xiàn)有的方法。所以對(duì)于選手們來(lái)說(shuō),不要過(guò)于看重分?jǐn)?shù),而應(yīng)該將更多注意力放在背后的原理上。”

另外俞揚(yáng)也提到,比賽所用數(shù)據(jù)集和實(shí)際應(yīng)用有差距,所以學(xué)生們學(xué)會(huì)思考應(yīng)用中真正面臨的問(wèn)題一方面,數(shù)據(jù)不干凈、遠(yuǎn)比比賽復(fù)雜的處理要求需要考慮在內(nèi);另外一方面,也要學(xué)會(huì)從不同角度去設(shè)計(jì)來(lái)滿足客戶的需求,如界面的引導(dǎo)幫助用戶修正問(wèn)題表述,以間接提升搜索精度。

“通過(guò)其他角度來(lái)輔助設(shè)計(jì)可以幫助人工智能模型避免一些問(wèn)題對(duì)于訓(xùn)練模型的使用是有很好的幫助,這也是實(shí)際應(yīng)用設(shè)計(jì)上不可忽視的一些小細(xì)節(jié)。”

最后

近年來(lái),NLP的技術(shù)研究帶來(lái)了一些創(chuàng)新型研究機(jī)會(huì),NL2SQL是其中之一。目前,Salesforce、斯坦福、耶魯?shù)葯C(jī)構(gòu)提出了WikiSQL、WikiTableQuestions、Spider、SParC等大規(guī)模數(shù)據(jù)集,并得到多次評(píng)測(cè)結(jié)果的提交。以WikiSQL為例,在排行榜上有多達(dá)19次的評(píng)測(cè)結(jié)果的提交。

不過(guò)基于中文數(shù)據(jù)集的NL2SQL技術(shù)還尚待發(fā)展,追一科技與南京大學(xué)計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室聯(lián)合舉辦了這樣一場(chǎng)比賽,無(wú)疑對(duì)這一技術(shù)在國(guó)內(nèi)的應(yīng)用起了重大推動(dòng)作用,這也是俞揚(yáng)十分看好它的原因之一。

最后,記得關(guān)注微信公眾號(hào):鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(zhǎng)按識(shí)別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新

分享到