重磅!圖靈獲 NLPCC2018 競賽用戶畫像和推薦任務(wù)第1名

巫盼 8年前 (2018-05-26)

圖靈在用戶畫像和智能推薦上已經(jīng)達(dá)到行業(yè)頂尖的水平,并賦能到國內(nèi) Top 50 的兒童玩具品牌,幫助他們實(shí)現(xiàn)智能化的產(chǎn)品體驗(yàn)。

近日,NLPCC 2018 競賽公布評(píng)測結(jié)果,圖靈機(jī)器人NLP研究員在用戶畫像與好友推薦任務(wù)中均獲得第 1 名!

另據(jù)悉,用戶畫像與好友推薦這兩項(xiàng)新技術(shù)將在7月1日隨著圖靈OS新版正式上線!

重磅!圖靈獲 NLPCC2018 競賽用戶畫像和推薦任務(wù)第1名

NLPCC 是國內(nèi)首個(gè) NLP 領(lǐng)域的國際會(huì)議,是國際上中文計(jì)算領(lǐng)域的頂尖會(huì)議。會(huì)議由中國計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,CCF 中文信息技術(shù)專業(yè)委員會(huì)(CCF TCCI)及高校(每年通過投票選舉)承辦。會(huì)議內(nèi)容主要圍繞自然語言處理(NLP)和中文計(jì)算(CC)兩方面來進(jìn)行。

本次競賽,包含 8 項(xiàng)任務(wù)評(píng)測,涉及情緒識(shí)別、語法糾錯(cuò)、自動(dòng)文摘、對(duì)話系統(tǒng)中的口語理解、多輪人機(jī)對(duì)話、知乎問題標(biāo)注、智能問答、用戶畫像與推薦等。憑借多年的技術(shù)和數(shù)據(jù)積累,圖靈參加并拿下了用戶畫像與好友推薦任務(wù)第一名。

用戶畫像和好友推薦是什么?

用戶畫像是在給定了用戶的一些基本信息,例如:性別、地理位置、好友關(guān)系、微博信息,以及用戶的標(biāo)簽信息,需要根據(jù)用戶的基本信息來預(yù)測用戶的標(biāo)簽。

好友推薦任務(wù)目的是基于用戶歷史好友、用戶的個(gè)人信息、微博文本、到過的地點(diǎn)等,為用戶推薦新的好友。該任務(wù)中一個(gè)用戶可能和多個(gè)標(biāo)簽相關(guān)聯(lián),是一個(gè)典型的多標(biāo)簽分類任務(wù),目前比較流行的有三類方法來解決多標(biāo)簽分類問題:

(1) 問題轉(zhuǎn)換,該方法的思想是將多標(biāo)簽問題轉(zhuǎn)換為單標(biāo)簽問題,例如二元關(guān)聯(lián)、分類器鏈、標(biāo)簽Powerset等方法都是早期提出的方法,但是該方法沒有考慮標(biāo)簽之間的相關(guān)性。

(2) 改編算法,該方法的思想是將多標(biāo)簽分類問題轉(zhuǎn)化為多分類問題。該方法跟問題轉(zhuǎn)換方法一樣沒有考慮標(biāo)簽的相關(guān)性,而且當(dāng)標(biāo)簽數(shù)量比較大的時(shí)候,分類組合的數(shù)量會(huì)很大,增加了模型的復(fù)雜性,并降低了精確度。

(3) 集成方法,該方法的思想通過組合多個(gè)模型,以獲得更好的效果,使集成的模型具有更強(qiáng)的泛化能力,但是該方法需要大量的維護(hù)工作。

由于之前的方法都有各種各樣的缺點(diǎn),考慮到任務(wù)中標(biāo)簽之間有比較強(qiáng)的關(guān)聯(lián)性,利用深度學(xué)習(xí)能夠自主學(xué)習(xí)特征的特性,我們提議了新的模型,考慮到用戶基本信息的組合特征和標(biāo)簽之間的相關(guān)性,從而提高了預(yù)測的準(zhǔn)確率。

好友推薦任務(wù)在大部分研究好友推薦的文章中,大部分是基于特征挖掘?qū)崿F(xiàn)的,需要充分的用戶和好友的微博文本,個(gè)人信息,興趣愛好甚至生活習(xí)慣等信息,還有一些基于社交信息進(jìn)行圖挖掘。

在準(zhǔn)備過程中,我們首先尋找了相似的數(shù)據(jù),并嘗試了從專門用于好友推薦的多種,包括傳統(tǒng)的FOF、協(xié)同過濾、矩陣分解等。在發(fā)布正式數(shù)據(jù)后,對(duì)適用各類特征的方法進(jìn)行了評(píng)估和比較。最終根據(jù)用戶歷史社交信息的多少,分別選擇了合適的方法。

就像人類的智慧行行程需要依賴于知識(shí)和經(jīng)驗(yàn),機(jī)器人想要聰明也需要有足夠豐富的“知識(shí)”和“經(jīng)驗(yàn)”。

為此,圖靈建立了大量的知識(shí)圖譜——在這其中,圖靈不僅有知識(shí)圖譜數(shù)量上的累積,更強(qiáng)調(diào)圖譜中每個(gè)節(jié)點(diǎn)的關(guān)聯(lián)性和跳躍性。在對(duì)話過程中,機(jī)器利用知識(shí)圖譜來理解人的話題,并找到話題圖話題的關(guān)聯(lián)性,實(shí)現(xiàn)在相互關(guān)聯(lián)的話題之間自然跳轉(zhuǎn)。

你是誰?我們發(fā)生過什么?

搭載了圖靈大腦的機(jī)器人,可以把每一個(gè)用戶作為一個(gè)實(shí)體,在使用中不斷關(guān)聯(lián)與用戶相關(guān)的信息,反向刻畫出精準(zhǔn)的用戶畫像?;诤腿说慕换?shù)據(jù),機(jī)器人會(huì)再形成新的知識(shí)圖譜,并完成跨越間維度的上下文對(duì)話。

——換句話講,你家的機(jī)器人不再是個(gè)沒有故事的“傻孩子”,它不僅知道自己是誰,也知道你是誰,甚至記得你喜歡什么、你說過什么話,并有可能在日后的對(duì)話中,用你的說過的話“懟”回你。

你喜歡什么?我能為你做什么?

在解決“我是誰”、“你是誰”這樣的認(rèn)知問題之后,接下來就需要考慮“聊得來”的問題了——機(jī)器人需要知道你喜歡什么,并根據(jù)你的興趣向你主題推薦聊天話題和內(nèi)容服務(wù)。

在對(duì)話狀態(tài)下,基于前面的精準(zhǔn)用戶畫像,圖靈會(huì)通過智能推薦算法,按照用戶的特征來選擇其感興趣的話題。而在非對(duì)話狀態(tài)下,圖靈則會(huì)主動(dòng)篩選內(nèi)容和服務(wù),幫助用戶快速找到。

簡單來講,就是同一款搭載了圖靈大腦的產(chǎn)品,在不同用戶的家里可能會(huì)有完全不一樣的表現(xiàn)——小女孩的機(jī)器人喜歡講白雪公主和哆啦A夢的故事;小男孩的機(jī)器人對(duì)超級(jí)飛俠和奧特曼的故事如數(shù)家珍。

在人機(jī)交互的過程中,精準(zhǔn)的用戶畫像可以為機(jī)器「理解」用戶打下基礎(chǔ),幫助機(jī)器更加清晰地了解用戶的意圖;同時(shí),通過智能推薦的方式,在操作層面上,可以減少用戶的操作成本,而在對(duì)話過程中,可以預(yù)先圈定意圖范圍,避免了“答非所問”之類的尷尬。

憑借圖靈在人工智能領(lǐng)域多年的積累,圖靈在用戶畫像和智能推薦上已經(jīng)達(dá)到行業(yè)頂尖的水平,并賦能到國內(nèi) Top 50 的兒童玩具品牌,幫助他們實(shí)現(xiàn)智能化的產(chǎn)品體驗(yàn)。

最后,記得關(guān)注微信公眾號(hào):鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長按識(shí)別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新

分享到