重磅!圖靈獲 NLPCC2018 競(jìng)賽用戶畫(huà)像和推薦任務(wù)第1名

巫盼 8年前 (2018-05-26)

圖靈在用戶畫(huà)像和智能推薦上已經(jīng)達(dá)到行業(yè)頂尖的水平,并賦能到國(guó)內(nèi) Top 50 的兒童玩具品牌,幫助他們實(shí)現(xiàn)智能化的產(chǎn)品體驗(yàn)。

近日,NLPCC 2018 競(jìng)賽公布評(píng)測(cè)結(jié)果,圖靈機(jī)器人NLP研究員在用戶畫(huà)像與好友推薦任務(wù)中均獲得第 1 名!

另?yè)?jù)悉,用戶畫(huà)像與好友推薦這兩項(xiàng)新技術(shù)將在7月1日隨著圖靈OS新版正式上線!

重磅!圖靈獲 NLPCC2018 競(jìng)賽用戶畫(huà)像和推薦任務(wù)第1名

NLPCC 是國(guó)內(nèi)首個(gè) NLP 領(lǐng)域的國(guó)際會(huì)議,是國(guó)際上中文計(jì)算領(lǐng)域的頂尖會(huì)議。會(huì)議由中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,CCF 中文信息技術(shù)專(zhuān)業(yè)委員會(huì)(CCF TCCI)及高校(每年通過(guò)投票選舉)承辦。會(huì)議內(nèi)容主要圍繞自然語(yǔ)言處理(NLP)和中文計(jì)算(CC)兩方面來(lái)進(jìn)行。

本次競(jìng)賽,包含 8 項(xiàng)任務(wù)評(píng)測(cè),涉及情緒識(shí)別、語(yǔ)法糾錯(cuò)、自動(dòng)文摘、對(duì)話系統(tǒng)中的口語(yǔ)理解、多輪人機(jī)對(duì)話、知乎問(wèn)題標(biāo)注、智能問(wèn)答、用戶畫(huà)像與推薦等。憑借多年的技術(shù)和數(shù)據(jù)積累,圖靈參加并拿下了用戶畫(huà)像與好友推薦任務(wù)第一名。

用戶畫(huà)像和好友推薦是什么?

用戶畫(huà)像是在給定了用戶的一些基本信息,例如:性別、地理位置、好友關(guān)系、微博信息,以及用戶的標(biāo)簽信息,需要根據(jù)用戶的基本信息來(lái)預(yù)測(cè)用戶的標(biāo)簽。

好友推薦任務(wù)目的是基于用戶歷史好友、用戶的個(gè)人信息、微博文本、到過(guò)的地點(diǎn)等,為用戶推薦新的好友。該任務(wù)中一個(gè)用戶可能和多個(gè)標(biāo)簽相關(guān)聯(lián),是一個(gè)典型的多標(biāo)簽分類(lèi)任務(wù),目前比較流行的有三類(lèi)方法來(lái)解決多標(biāo)簽分類(lèi)問(wèn)題:

(1) 問(wèn)題轉(zhuǎn)換,該方法的思想是將多標(biāo)簽問(wèn)題轉(zhuǎn)換為單標(biāo)簽問(wèn)題,例如二元關(guān)聯(lián)、分類(lèi)器鏈、標(biāo)簽Powerset等方法都是早期提出的方法,但是該方法沒(méi)有考慮標(biāo)簽之間的相關(guān)性。

(2) 改編算法,該方法的思想是將多標(biāo)簽分類(lèi)問(wèn)題轉(zhuǎn)化為多分類(lèi)問(wèn)題。該方法跟問(wèn)題轉(zhuǎn)換方法一樣沒(méi)有考慮標(biāo)簽的相關(guān)性,而且當(dāng)標(biāo)簽數(shù)量比較大的時(shí)候,分類(lèi)組合的數(shù)量會(huì)很大,增加了模型的復(fù)雜性,并降低了精確度。

(3) 集成方法,該方法的思想通過(guò)組合多個(gè)模型,以獲得更好的效果,使集成的模型具有更強(qiáng)的泛化能力,但是該方法需要大量的維護(hù)工作。

由于之前的方法都有各種各樣的缺點(diǎn),考慮到任務(wù)中標(biāo)簽之間有比較強(qiáng)的關(guān)聯(lián)性,利用深度學(xué)習(xí)能夠自主學(xué)習(xí)特征的特性,我們提議了新的模型,考慮到用戶基本信息的組合特征和標(biāo)簽之間的相關(guān)性,從而提高了預(yù)測(cè)的準(zhǔn)確率。

好友推薦任務(wù)在大部分研究好友推薦的文章中,大部分是基于特征挖掘?qū)崿F(xiàn)的,需要充分的用戶和好友的微博文本,個(gè)人信息,興趣愛(ài)好甚至生活習(xí)慣等信息,還有一些基于社交信息進(jìn)行圖挖掘。

在準(zhǔn)備過(guò)程中,我們首先尋找了相似的數(shù)據(jù),并嘗試了從專(zhuān)門(mén)用于好友推薦的多種,包括傳統(tǒng)的FOF、協(xié)同過(guò)濾、矩陣分解等。在發(fā)布正式數(shù)據(jù)后,對(duì)適用各類(lèi)特征的方法進(jìn)行了評(píng)估和比較。最終根據(jù)用戶歷史社交信息的多少,分別選擇了合適的方法。

就像人類(lèi)的智慧行行程需要依賴于知識(shí)和經(jīng)驗(yàn),機(jī)器人想要聰明也需要有足夠豐富的“知識(shí)”和“經(jīng)驗(yàn)”。

為此,圖靈建立了大量的知識(shí)圖譜——在這其中,圖靈不僅有知識(shí)圖譜數(shù)量上的累積,更強(qiáng)調(diào)圖譜中每個(gè)節(jié)點(diǎn)的關(guān)聯(lián)性和跳躍性。在對(duì)話過(guò)程中,機(jī)器利用知識(shí)圖譜來(lái)理解人的話題,并找到話題圖話題的關(guān)聯(lián)性,實(shí)現(xiàn)在相互關(guān)聯(lián)的話題之間自然跳轉(zhuǎn)。

你是誰(shuí)?我們發(fā)生過(guò)什么?

搭載了圖靈大腦的機(jī)器人,可以把每一個(gè)用戶作為一個(gè)實(shí)體,在使用中不斷關(guān)聯(lián)與用戶相關(guān)的信息,反向刻畫(huà)出精準(zhǔn)的用戶畫(huà)像?;诤腿说慕换?shù)據(jù),機(jī)器人會(huì)再形成新的知識(shí)圖譜,并完成跨越間維度的上下文對(duì)話。

——換句話講,你家的機(jī)器人不再是個(gè)沒(méi)有故事的“傻孩子”,它不僅知道自己是誰(shuí),也知道你是誰(shuí),甚至記得你喜歡什么、你說(shuō)過(guò)什么話,并有可能在日后的對(duì)話中,用你的說(shuō)過(guò)的話“懟”回你。

你喜歡什么?我能為你做什么?

在解決“我是誰(shuí)”、“你是誰(shuí)”這樣的認(rèn)知問(wèn)題之后,接下來(lái)就需要考慮“聊得來(lái)”的問(wèn)題了——機(jī)器人需要知道你喜歡什么,并根據(jù)你的興趣向你主題推薦聊天話題和內(nèi)容服務(wù)。

在對(duì)話狀態(tài)下,基于前面的精準(zhǔn)用戶畫(huà)像,圖靈會(huì)通過(guò)智能推薦算法,按照用戶的特征來(lái)選擇其感興趣的話題。而在非對(duì)話狀態(tài)下,圖靈則會(huì)主動(dòng)篩選內(nèi)容和服務(wù),幫助用戶快速找到。

簡(jiǎn)單來(lái)講,就是同一款搭載了圖靈大腦的產(chǎn)品,在不同用戶的家里可能會(huì)有完全不一樣的表現(xiàn)——小女孩的機(jī)器人喜歡講白雪公主和哆啦A夢(mèng)的故事;小男孩的機(jī)器人對(duì)超級(jí)飛俠和奧特曼的故事如數(shù)家珍。

在人機(jī)交互的過(guò)程中,精準(zhǔn)的用戶畫(huà)像可以為機(jī)器「理解」用戶打下基礎(chǔ),幫助機(jī)器更加清晰地了解用戶的意圖;同時(shí),通過(guò)智能推薦的方式,在操作層面上,可以減少用戶的操作成本,而在對(duì)話過(guò)程中,可以預(yù)先圈定意圖范圍,避免了“答非所問(wèn)”之類(lèi)的尷尬。

憑借圖靈在人工智能領(lǐng)域多年的積累,圖靈在用戶畫(huà)像和智能推薦上已經(jīng)達(dá)到行業(yè)頂尖的水平,并賦能到國(guó)內(nèi) Top 50 的兒童玩具品牌,幫助他們實(shí)現(xiàn)智能化的產(chǎn)品體驗(yàn)。

最后,記得關(guān)注微信公眾號(hào):鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(zhǎng)按識(shí)別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新

分享到