首屆中文NL2SQL挑戰(zhàn)賽完美收官,產(chǎn)學(xué)研攜手推動智能交互的發(fā)展
通過這次挑戰(zhàn)賽,追一科技與院校、企業(yè)界同仁攜手,共同推動中文NLP研究與應(yīng)用突破。
籌備8個月,初、復(fù)賽鏖戰(zhàn)3個月,千支隊(duì)伍角逐,首屆中文NL2SQL挑戰(zhàn)賽結(jié)果揭曉。
10月12日下午,由追一科技主辦、南京大學(xué)計(jì)算機(jī)軟件新技術(shù)國家重點(diǎn)實(shí)驗(yàn)室協(xié)辦的“首屆中文NL2SQL挑戰(zhàn)賽”總決賽答辯暨頒獎典禮在南京大學(xué)舉行。經(jīng)過最終決賽的5強(qiáng)選手隊(duì)伍精彩分享、答辯和現(xiàn)場評委考評,決出最終名次。來自國防科技大學(xué)的選手團(tuán)隊(duì)“不上90不改名字”奪得冠軍,國雙科技選手團(tuán)隊(duì)“BugCreater”獲得亞軍,觀安信息與妙盈科技選手聯(lián)合團(tuán)隊(duì)“Model S”獲得季軍,來自華南理工大學(xué)與佛羅里達(dá)大學(xué)的選手隊(duì)伍“大佬帶我飛”,以及浙江大學(xué)的團(tuán)隊(duì)“老哥們不放假嗎”則獲得優(yōu)勝獎。
首次舉辦、首次發(fā)布中文數(shù)據(jù)集,短短幾個月,選手們的成績,已經(jīng)超過了國外WikiSQL,直奔“九十分”,讓眾多評委感覺“驚喜”。最終的現(xiàn)場答辯對決,讓之前的短暫排名,再生懸念。
由眾多人工智能大咖組成的專家評委團(tuán),包括中國移動研究院首席科學(xué)家馮俊蘭、復(fù)旦大學(xué)教授肖仰華、新加坡南洋理工大學(xué)副教授毛可智、南京大學(xué)教授俞揚(yáng)、追一科技CTO劉云峰等產(chǎn)學(xué)研多方代表,在決賽現(xiàn)場對選手們的技術(shù)方案,進(jìn)行了專業(yè)精彩的分析點(diǎn)評,從而產(chǎn)生最終結(jié)果。從AI與數(shù)據(jù)庫交互,到更廣闊的創(chuàng)新空間,自然語言處理的“技術(shù)大年”味道越來越濃。
“此次挑戰(zhàn)賽參與規(guī)模、選手表現(xiàn)遠(yuǎn)超預(yù)期,顯示出NL2SQL在學(xué)術(shù)和產(chǎn)業(yè)應(yīng)用上的潛力,數(shù)據(jù)庫的交互創(chuàng)新,正在受到越來越多關(guān)注。”追一科技聯(lián)合創(chuàng)始人兼CTO劉云峰博士表示,追一科技將與更多院校、企業(yè)界同仁攜手,共同推動中文NLP研究與應(yīng)用突破。
圖 | 追一科技聯(lián)合創(chuàng)始人兼CTO劉云峰
中文數(shù)據(jù)集成績比肩WikiSQL
NL2SQL(自然語言轉(zhuǎn)結(jié)構(gòu)化查詢語句)作為新興的研究領(lǐng)域,在國外由SalesForce耶魯大學(xué)等發(fā)布了WikiSQL和Spider數(shù)據(jù)集,但在國內(nèi)市場,目前還處于起步階段。
此次NL2SQL挑戰(zhàn)賽是國內(nèi)首次舉辦,期間,追一科技發(fā)布了業(yè)內(nèi)首個大規(guī)模的中文數(shù)據(jù)集,包括4870張表格數(shù)據(jù)、近50000條標(biāo)注數(shù)據(jù)以及相應(yīng)的SQL語句,并獲得很多學(xué)界專家、產(chǎn)業(yè)界伙伴的支持,通過“產(chǎn)學(xué)研”等多方聯(lián)動,希望提供一個平臺,來推動NL2SQL的研究和應(yīng)用。
來自學(xué)術(shù)和產(chǎn)業(yè)界的AI大咖,擔(dān)任大賽評委,并提供專業(yè)建議和資源支持。包括中國移動研究院首席科學(xué)家馮俊蘭、復(fù)旦大學(xué)教授肖仰華、新加坡南洋理工大學(xué)副教授毛可智、南京大學(xué)教授俞揚(yáng),追一科技CTO劉云峰。
“直接用自然語言訪問關(guān)系型數(shù)據(jù)庫一直是業(yè)界夢想”,嘉賓評委代表肖仰華表示,隨著對大數(shù)據(jù)價值的重視,這一愿望更變得日益迫切。此次比賽的發(fā)起和中文數(shù)據(jù)集的公布,在短短的時間里,加速了NL2SQL研究設(shè)想的實(shí)現(xiàn),“最終選手的成績,完全超出了我們對于比賽的預(yù)期。”
經(jīng)過選手的不斷努力與探索,比賽任務(wù)短期內(nèi)就達(dá)到與英文數(shù)據(jù)集上相當(dāng)水平的分?jǐn)?shù),并持續(xù)刷新記錄。比賽初期,準(zhǔn)確率尚為60%多,至8月份初賽結(jié)束時,榜上頭部分?jǐn)?shù)已經(jīng)達(dá)到89%,接近WikiSQL成績。復(fù)賽結(jié)束時,選手最高成績達(dá)到92%,并且,最終晉級決賽的5支隊(duì)伍,個個都在“90分”以上。
千支隊(duì)伍角逐
據(jù)了解,本次1457支參賽隊(duì)伍中,院校和企業(yè)參與者各占“半壁江山”。
其中,學(xué)生及科研人員占比48%,企業(yè)技術(shù)員工占比52%。學(xué)生參賽隊(duì)伍來自眾多知名院校,如北京大學(xué)、清華大學(xué)、復(fù)旦大學(xué)、上海交通大學(xué)、南京大學(xué)、浙江大學(xué)、中國科學(xué)技術(shù)大學(xué)、哈爾濱工業(yè)大學(xué)、西安交通大學(xué)等。
雖然本次比賽的數(shù)據(jù)內(nèi)容是中文形式,但仍然吸引了美國、英國、新加坡、日本、澳大利亞、加拿大等海外頂級院校參與,包括卡內(nèi)基梅隆、墨爾本大學(xué)、新加坡國立大學(xué)、南安普頓大學(xué)、新南威爾士大學(xué)、布里斯托大學(xué)、昆士蘭大學(xué)等。
作為新興NLP研究任務(wù),NL2SQL在專業(yè)難度上,也對選手提出較高要求。據(jù)了解,本次參賽選手中,碩士及以上學(xué)歷占比57%,其中,博士學(xué)歷占比6%;而專業(yè)分布上,計(jì)算機(jī)科學(xué)專業(yè)背景的選手則屬于參賽主力。
應(yīng)用前景
在如火如荼的比賽背后,NL2SQL應(yīng)用潛力,也受到了越來越多的矚目。
來自中國移動、平安集團(tuán)、搜狗、達(dá)闥科技、中興通訊、網(wǎng)宿科技、國雙科技、捷通華聲等眾多企業(yè)的技術(shù)人員,也成為參賽隊(duì)伍的重要力量。
業(yè)內(nèi)人士表示, NL2SQL在銀行、保險、證券、電商、汽車、地產(chǎn)等數(shù)據(jù)富礦領(lǐng)域,有很大的應(yīng)用潛力,可以大大地降低數(shù)據(jù)庫訪問和使用門檻,更好地挖掘數(shù)據(jù)特別是結(jié)構(gòu)化數(shù)據(jù)價值,讓數(shù)據(jù)庫不再“沉睡”。
“此次挑戰(zhàn)賽參與規(guī)模遠(yuǎn)超預(yù)期,顯示出NL2SQL在學(xué)術(shù)和產(chǎn)業(yè)應(yīng)用上的潛力,數(shù)據(jù)庫的交互創(chuàng)新,正在受到越來越多關(guān)注。”追一科技聯(lián)合創(chuàng)始人兼CTO劉云峰博士表示,追一科技將與更多院校、企業(yè)界同仁攜手,共同推動中文NLP研究與應(yīng)用突破。
作為來自產(chǎn)業(yè)界的專家評委,馮俊蘭表示,NL2SQL是自然語言處理的一個非常重要的應(yīng)用領(lǐng)域,涉及到多個自然語言處理領(lǐng)域的核心問題,非常開心看到這么多高水平的隊(duì)伍參賽,并取得了非常好的成績,也看了產(chǎn)、學(xué)、研在這個方向上共同提升技術(shù)的熱情。
“今天在AI與數(shù)據(jù)庫交互上,我們又一次看到了突破,新的想象空間。”對于此次比賽的舉行,創(chuàng)新工場董事長兼首席執(zhí)行官李開復(fù)也表示,期待看到追一和更多NLP開發(fā)愛好者,不斷探索努力,推進(jìn)NLP創(chuàng)新和普惠應(yīng)用。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅(qū)動創(chuàng)新
