南京大學(xué)人工智能學(xué)院教授俞揚(yáng):從應(yīng)用出發(fā)多角度設(shè)計(jì),可得更優(yōu)算法模型

Lynn 6年前 (2019-10-29)

俞揚(yáng)認(rèn)為學(xué)會思考應(yīng)用中真正面臨的問題并從多角度去解決問題,這很重要。

日前,“首屆中文NL2SQL挑戰(zhàn)賽”總決賽在南京大學(xué)計(jì)算機(jī)樓里落幕,南京大學(xué)人工智能學(xué)院教授俞揚(yáng)被邀請擔(dān)任評委。

對于公眾來說,NL2SQL是一個(gè)全新的技術(shù)方向,它是自然語言處理(NLP)與數(shù)據(jù)庫查詢應(yīng)用相結(jié)合的一個(gè)研究方向,是NLP技術(shù)研究范疇中的小分支。因此相較于AI領(lǐng)域內(nèi)的各大賽事,這場比賽稱不上“盛大”,但俞揚(yáng)認(rèn)為它對學(xué)術(shù)和產(chǎn)業(yè)界的價(jià)值是重大的。

南京大學(xué)人工智能學(xué)院教授俞揚(yáng):從應(yīng)用出發(fā)多角度設(shè)計(jì),可得更優(yōu)算法模型

圖 | 中文NL2SQL挑戰(zhàn)賽

“因?yàn)榻耆斯ぶ悄軜I(yè)界的關(guān)注點(diǎn)多在圖像(視覺)上,相對而言,工業(yè)數(shù)據(jù)庫等離散信息的分析較為冷淡,所以在這個(gè)領(lǐng)域里,像這樣與具體應(yīng)用結(jié)合的比賽是有開創(chuàng)意義的。這一次能夠有這么多人來參加,也能夠引起大家的關(guān)注,是一件好事。”

作為人工智能領(lǐng)域知名學(xué)者兼導(dǎo)師,多重身份讓俞揚(yáng)從這場比賽中看見了很多。在會后接受采訪時(shí),他也談到了自己因觀賽而生出的對于技術(shù)發(fā)展的諸多思考并分享了有關(guān)人才培養(yǎng)、技術(shù)研究方向上的建議。

AI與應(yīng)用結(jié)合緊密大勢初顯

首先,俞揚(yáng)認(rèn)為比賽以NL2SQL為主題,某種程度上體現(xiàn)了業(yè)界對技術(shù)與應(yīng)用深度結(jié)合研究方向的重視,同時(shí)也是業(yè)內(nèi)對技術(shù)認(rèn)知日趨客觀的一種體現(xiàn)。

俞揚(yáng)指出,受到各方面因素影響,雖是AI算法與自然語言應(yīng)用結(jié)合的關(guān)鍵技術(shù)方向,但一直以來自然語言理解(NLP)相對計(jì)算機(jī)視覺等領(lǐng)域沒有那么火熱卻是事實(shí)。

南京大學(xué)人工智能學(xué)院教授俞揚(yáng):從應(yīng)用出發(fā)多角度設(shè)計(jì),可得更優(yōu)算法模型

圖 | 南京大學(xué)人工智能學(xué)院教授 俞揚(yáng)

回顧這一波AI算法浪潮我們?nèi)菀装l(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)在視覺領(lǐng)域的成功應(yīng)用起到了關(guān)鍵帶動作用,隨后深度學(xué)習(xí)算法滲透到了各行各業(yè)。Google Trends曾發(fā)表數(shù)據(jù)指出,受深度學(xué)習(xí)算法影響,自2015年起,“機(jī)器學(xué)習(xí)”的搜索熱度一度超過了人工智能本身。

而在這一波熱潮中,因視覺領(lǐng)域是深度學(xué)習(xí)算法最開始發(fā)力的地方,大量產(chǎn)業(yè)和學(xué)界的資源涌入了計(jì)算機(jī)視覺(CV)領(lǐng)域。作為能夠解決傳統(tǒng)數(shù)據(jù)庫查詢的繁瑣問題、有著實(shí)用價(jià)值的一項(xiàng)技術(shù),NL2SQL在此時(shí)被提出,也能夠吸引更多人的目光。

“從技術(shù)層面看,NL2SQL是將自然語言轉(zhuǎn)化為SQL語句的一項(xiàng)任務(wù),在研究領(lǐng)域是一個(gè)比較新的方向。但是它不僅僅是一個(gè)技術(shù)方向,更為重要的是它可以直接對應(yīng)到一些應(yīng)用上面,比如財(cái)務(wù)報(bào)表數(shù)據(jù)庫,有人想知道里面的某一方面信息,運(yùn)用這項(xiàng)技術(shù),我們就可以用自然語言去提問,機(jī)器來回答,這樣會更高效便捷。”

正如俞揚(yáng)提到,NL2SQL是一個(gè)技術(shù)與應(yīng)用結(jié)合的產(chǎn)物。這場關(guān)于NL2SQL的大賽,其意義不僅僅在于對一項(xiàng)技術(shù)的推動,而是業(yè)內(nèi)對技術(shù)與應(yīng)用深度結(jié)合的重視。

從NL2SQL看技術(shù)落地

具體去看,NL2SQL是如何幫助改進(jìn)傳統(tǒng)數(shù)據(jù)庫查詢的?

俞揚(yáng)介紹說,在過去如果想要知道數(shù)據(jù)庫里面的信息,就需要有專業(yè)程序員去寫一段查詢數(shù)據(jù)庫的機(jī)器語言(SQL);現(xiàn)在,NL2SQL可以將自然語言自動翻譯成機(jī)器語言(SQL)去查詢,然后把答案反饋給用戶。

“這大大降低了數(shù)據(jù)庫的使用門檻。”

以比賽中的案例來看,俞揚(yáng)提到選手用自然語言提問“某地在某日的天氣是怎樣的”,程序可以自動將問題變成在計(jì)算機(jī)里面可以跑出結(jié)果的機(jī)器搜索語言,并查詢到結(jié)果。

俞揚(yáng)特別補(bǔ)充說,“類似這樣的案例都是能夠產(chǎn)生實(shí)際價(jià)值的,這對技術(shù)的應(yīng)用和推廣有著直接積極的影響。”但同時(shí)他也指出,透過比賽可以看出NL2SQL還有很大的提升空間,比如說在算法泛化能力這一普遍關(guān)注點(diǎn)上。

“從大的方向來看,傳統(tǒng)的語義知識是不足以支撐商用的,更希望能夠引入一些常識,引入一些數(shù)據(jù)庫里面沒有出現(xiàn)過的東西,讓它能夠?qū)W習(xí)判斷并應(yīng)用在對沒有見過的一些數(shù)據(jù)處理上,提升泛化能力。”

常識在這一次比賽中被反復(fù)提起,也是人工智能想要變得更加“聰明”所必須要彌補(bǔ)的部分。不過加入常識這件事并不容易。

“人有很多常識,但我們往往不知道常識從哪里來??赡芤?yàn)槲覀儧]有課本專門去學(xué)習(xí)常識,所以就難以界定哪些東西是在我們的常識范圍內(nèi),因此一開始數(shù)據(jù)的收集就比較困難。比如雞有幾條腿、兔子有幾條腿的問題,大家都知道答案,但是我們沒有在課本上學(xué)習(xí)過,甚至什么時(shí)候獲得常識都不得而知。而當(dāng)機(jī)器要解決比如雞兔同籠問題,就必須依賴這些常識知識。”

專業(yè)人才應(yīng)當(dāng)看得更為長遠(yuǎn)

當(dāng)然,除了對技術(shù)發(fā)展和行業(yè)的關(guān)注,作為導(dǎo)師,俞揚(yáng)也更加關(guān)注人才培養(yǎng)。

此次比賽以學(xué)生給定程序的最終搜索精度為主要評定標(biāo)準(zhǔn),這有積極意義,自然也有其局限性。

南京大學(xué)人工智能學(xué)院教授俞揚(yáng):從應(yīng)用出發(fā)多角度設(shè)計(jì),可得更優(yōu)算法模型

基于過往的經(jīng)驗(yàn)和長遠(yuǎn)的發(fā)展角度,俞揚(yáng)也特別給了學(xué)生一些自己的建議,因?yàn)槭潜荣?,選手們希望分越高越好,不過從長期的角度來看,比賽用的方法能夠得到90,但想要拿到最后的10分,可能往往需要顛覆現(xiàn)有的方法。所以對于選手們來說,不要過于看重分?jǐn)?shù),而應(yīng)該將更多注意力放在背后的原理上。”

另外俞揚(yáng)也提到,比賽所用數(shù)據(jù)集和實(shí)際應(yīng)用有差距,所以學(xué)生們學(xué)會思考應(yīng)用中真正面臨的問題。一方面,數(shù)據(jù)不干凈、遠(yuǎn)比比賽復(fù)雜的處理要求需要考慮在內(nèi);另外一方面,也要學(xué)會從不同角度去設(shè)計(jì)來滿足客戶的需求,如界面的引導(dǎo)幫助用戶修正問題表述,以間接提升搜索精度。

“通過其他角度來輔助設(shè)計(jì)可以幫助人工智能模型避免一些問題對于訓(xùn)練模型的使用是有很好的幫助,這也是實(shí)際應(yīng)用設(shè)計(jì)上不可忽視的一些小細(xì)節(jié)。”

最后

近年來,NLP的技術(shù)研究帶來了一些創(chuàng)新型研究機(jī)會,NL2SQL是其中之一。目前,Salesforce、斯坦福、耶魯?shù)葯C(jī)構(gòu)提出了WikiSQL、WikiTableQuestions、Spider、SParC等大規(guī)模數(shù)據(jù)集,并得到多次評測結(jié)果的提交。以WikiSQL為例,在排行榜上有多達(dá)19次的評測結(jié)果的提交。

不過基于中文數(shù)據(jù)集的NL2SQL技術(shù)還尚待發(fā)展,追一科技與南京大學(xué)計(jì)算機(jī)軟件新技術(shù)國家重點(diǎn)實(shí)驗(yàn)室聯(lián)合舉辦了這樣一場比賽,無疑對這一技術(shù)在國內(nèi)的應(yīng)用起了重大推動作用,這也是俞揚(yáng)十分看好它的原因之一。

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動創(chuàng)新

分享到