三角獸與華為麒麟970聯(lián)合演示芯片級(jí)語(yǔ)義處理方案
三角獸與麒麟970聯(lián)合演示本地快速處理智能語(yǔ)義意圖及信息提取、智能表情生成、智能自動(dòng)回復(fù)等功能,強(qiáng)化手機(jī)終端精確語(yǔ)義認(rèn)知的能力,
當(dāng)前,人工智能已經(jīng)是最熱門的技術(shù)。但縱觀產(chǎn)業(yè)界,大多人工智能的技術(shù)和能力都是在云端部署,很少有在端側(cè)部署的。今年9月,華為發(fā)布的麒麟970和蘋果發(fā)布的A11這兩款業(yè)界僅有的人工智能手機(jī)芯片,徹底改變了產(chǎn)業(yè)格局。其中,華為發(fā)布的麒麟970是業(yè)界首款人工智能手機(jī)芯片,是在端側(cè)人工智能領(lǐng)域的一次突破性探索,開(kāi)創(chuàng)了人工智能手機(jī)應(yīng)用行業(yè)先河。
作為全球領(lǐng)先的ICT廠商,華為此次能夠在全球率先推出人工智能手機(jī)芯片麒麟970 并不令人意外。相較前作960,除了CPU能效提升20%,GPU性能提升20%、能效提升50%之外,還創(chuàng)新設(shè)計(jì)了HiAI移動(dòng)計(jì)算架構(gòu),首次集成NPU(Neural Network Processing Unit)專用硬件處理單元,其AI性能密度大幅優(yōu)于CPU和GPU。相較于四個(gè)Cortex-A73核心,在處理同樣的AI應(yīng)用任務(wù)時(shí),新的異構(gòu)計(jì)算架構(gòu)擁有大約25倍性能和50倍能效優(yōu)勢(shì),這意味著麒麟970芯片可以用更少的能耗更快地完成AI計(jì)算任務(wù)。作為對(duì)深度學(xué)習(xí)、人工智能的前瞻性探索,華為這次用芯片級(jí)的方案,對(duì)硬件做到了“底層武裝”。
三角獸與麒麟970聯(lián)合演示本地快速處理智能語(yǔ)義意圖及信息提取、智能表情生成、智能自動(dòng)回復(fù)等功能,強(qiáng)化手機(jī)終端精確語(yǔ)義認(rèn)知的能力,打造極致手機(jī)操作和交互體驗(yàn)。在這些功能的基礎(chǔ)上,可為手機(jī)拓展出豐富多樣的解決方案,讓手機(jī)更懂用戶,提供更好的交互體驗(yàn)。
那么,這些功能具體是什么,又該如何應(yīng)用呢?讓我們?cè)敿?xì)研究一下:
1.智能語(yǔ)義意圖及信息提取
智能分析文本隱含的語(yǔ)義意圖并提取關(guān)鍵信息,對(duì)應(yīng)到相關(guān)的功能和服務(wù),以此優(yōu)化用戶文本編輯的效率,減少操作路徑。
在我們?nèi)粘J褂檬謾C(jī)的過(guò)程中,我們經(jīng)常遇到以下場(chǎng)景:
朋友推薦了一個(gè)不錯(cuò)的餐廳,希望得知它的價(jià)格、環(huán)境或?qū)Ш饺ニ奈恢茫?/p>
看到感興趣的歌手的新聞,希望了解TA的更多新聞或收聽(tīng)TA熱門的歌曲;
一篇文章中提到的電影,想買一張它的電影票去附近影院觀看。
一個(gè)感覺(jué)不錯(cuò)的商品,想了解商品詳情或價(jià)格;
在目前手機(jī)系統(tǒng)中,進(jìn)行這些操作都比較繁瑣,以微信聊天內(nèi)容的地址查詢舉例:
我們需要在復(fù)制整段文本后,找到地圖應(yīng)用,然后用“胡蘿卜”似的手指對(duì)著一群細(xì)小的文字不斷觸碰,精確選擇到“北京市朝陽(yáng)區(qū)惠新東街2號(hào)”,再進(jìn)行搜索,才能查詢到所需內(nèi)容。
經(jīng)過(guò)三角獸智能語(yǔ)義理解能力的裝備后,這個(gè)繁瑣的步驟則可以一步到位了,不用找應(yīng)用,不用為難我們“胡蘿卜”似的手指,你只需點(diǎn)擊再點(diǎn)擊就可以了!
于是,在手機(jī)在收到大段信息之后,不管是地址還是吃喝玩樂(lè)等信息,都可以同樣的一鍵識(shí)別,秒懂你的需求。下面,我們來(lái)看幾個(gè)平時(shí)經(jīng)常出現(xiàn)的具體應(yīng)用場(chǎng)景:
跟朋友聊天、提到了某個(gè)餐廳時(shí),選擇這段文本,系統(tǒng)就可以識(shí)別提取出該餐廳名稱,并結(jié)合大眾點(diǎn)評(píng)等app獲取它的詳細(xì)資料,一鍵直接得知其價(jià)格、地址、環(huán)境等信息,是不是非常方便?
既然這種語(yǔ)義認(rèn)知能力可以輕輕松松智能識(shí)別提取出商店、地址等種種信息,那么商品、視頻名稱等等關(guān)鍵詞自然也不在話下了。在相關(guān)app的支持下,用戶同樣可以一鍵獲取購(gòu)物鏈接、視頻信息等,輕松實(shí)現(xiàn)后續(xù)動(dòng)作。
技術(shù)原理:
通過(guò)數(shù)百萬(wàn)級(jí)的各種場(chǎng)景下語(yǔ)料(如新聞、百度百科、百度知道、聊天、論壇、短信等),訓(xùn)練而成Bi-LSTM模型的Seq2Seq模型。
基于Seq2Seq的方法,將命名實(shí)體識(shí)別抽象為一個(gè)序列標(biāo)注的過(guò)程,具體分為Encoder和Decoder兩個(gè)階段:
?在Encoder階段,詞的序列分別按照句子行文的次序正向和反向通過(guò)LSTM的Cell
?在每個(gè)詞的位置,生成截止到當(dāng)前位置句子的正向和反向語(yǔ)義表示 和 (其中, 表示位置的語(yǔ)義表示,表示正向,表示反向)
?在Decoder階段,按照詞序列的順序,生成每個(gè)詞對(duì)應(yīng)的命名實(shí)體識(shí)別的結(jié)果(如果不是一個(gè)命名實(shí)體,則輸出Other)
?解碼階段,會(huì)綜合當(dāng)前位置的隱層語(yǔ)義 ( 表示位置,以下同理),上一個(gè)命名實(shí)體輸出 ,以及基于Attention Mechanism的Context Embedding的三個(gè)語(yǔ)義變量,共同構(gòu)成Decoder LSTM Cell的輸入
具體到Context Embedding向量 的計(jì)算過(guò)程:
?根據(jù)與encoder階段的 系列,系列計(jì)算Attention的權(quán)重
?,系列與權(quán)重 進(jìn)行加權(quán)求和,得到用于生成位置 的命名實(shí)體所需要的上下文語(yǔ)義變量
?在Decoder輸出隱層語(yǔ)義 之后,再通過(guò)Softmax層,將隱層變量空間,映射到命名實(shí)體分類體系空間,得到每種命名實(shí)體的概率,再選出概率最大的命名實(shí)體進(jìn)行最終輸出
這段是不是說(shuō)的太高深,很難懂?沒(méi)關(guān)系,咱們來(lái)個(gè)簡(jiǎn)單的解釋:Encoder可以理解為把人類的自然語(yǔ)言翻譯為機(jī)器語(yǔ)言,Decoder可以理解為機(jī)器用自己的語(yǔ)言對(duì)人類的自然語(yǔ)言進(jìn)行解釋,識(shí)別出每個(gè)詞語(yǔ)的意義。比如對(duì)于“那家渝鄉(xiāng)小館的辣子雞真好吃”這句話,在Decoder階段,對(duì)于“渝鄉(xiāng)小館”這一實(shí)體,計(jì)算機(jī)對(duì)其上文(前序詞語(yǔ))和下文(后序詞語(yǔ))進(jìn)行理解后,并經(jīng)過(guò)模型的概率計(jì)算,得出結(jié)果為“渝鄉(xiāng)小館”最大概率是一家餐廳。上文例子中的“五道口看戰(zhàn)狼2”中,同樣的道理可以將“五道口”識(shí)別為地址,“戰(zhàn)狼2”識(shí)別為電影。
目前,整個(gè)模型支持20多種命名實(shí)體的識(shí)別,可應(yīng)用于各類不同app與場(chǎng)景中。
2.智能表情生成
智能分析文本隱含情緒意圖,輔助用戶選擇最合適的表情。
聊天機(jī)器人并不罕見(jiàn),但是一個(gè)能準(zhǔn)確了解你的心思,還能幫你回復(fù)表情表示復(fù)雜情緒的機(jī)器人,是不是就比較稀有了?裝備了智能表情生成功能之后,通過(guò)模型,聊天機(jī)器人可自行計(jì)算判斷對(duì)話中體現(xiàn)的情緒意圖,并在回復(fù)時(shí)列出概率最高的表情作為備選項(xiàng),進(jìn)行便捷回復(fù)。
收到消息后,用戶只需輕松點(diǎn)擊對(duì)話文本,選擇智能表情回復(fù),就可以點(diǎn)選表情進(jìn)行回復(fù)了,省去了在大量表情庫(kù)里苦苦尋覓可用表情的麻煩。
目前三角獸能夠智能生成回復(fù)的表情包括20個(gè),除了常規(guī)的開(kāi)心、難過(guò)等簡(jiǎn)單類別,更能通過(guò)計(jì)算判斷回復(fù)尷尬、驚恐、賣萌等復(fù)雜表情。
智能表情生成示例
技術(shù)原理:
抓取數(shù)億級(jí)帶有表情標(biāo)簽的公開(kāi)對(duì)話語(yǔ)料,經(jīng)數(shù)據(jù)清理后選擇出數(shù)千萬(wàn)高質(zhì)量數(shù)據(jù),使用這些數(shù)據(jù)訓(xùn)練CNN模型構(gòu)建智能情緒分類系統(tǒng),下圖為帶有表情標(biāo)簽的原始訓(xùn)練數(shù)據(jù)示例:
CNN模型判斷一段文本的情緒分類分為以下階段:
?Embedding Layer
?查詢輸入句子中每個(gè)詞的Word Embedding,組合成句子的二維語(yǔ)義表示
?Convolution Layer
?定義多個(gè)大小的卷積窗口,以覆蓋多種長(zhǎng)度的相鄰詞組
?滑動(dòng)各窗口對(duì)句子的二維語(yǔ)義表示進(jìn)行卷積操作,獲取相鄰詞組的語(yǔ)義特征
?Max-Pooling Layer
?通過(guò)取最大值方式,分別對(duì)每個(gè)窗口生成的語(yǔ)義特征進(jìn)行采樣,以減少特征維數(shù)并捕獲最重要語(yǔ)義特征信息
?Full connected layer
?將各窗口Pooling之后的語(yǔ)義特征進(jìn)行拼接,并經(jīng)過(guò)非線性變換輸出整句語(yǔ)義特征
?Softmax Layer
?整句語(yǔ)義特征經(jīng)過(guò)Softmax層計(jì)算得到各表情的概率預(yù)估值
最終選擇出概率最大的N個(gè)情緒類別作為最終輸出。
簡(jiǎn)單地說(shuō),就是通過(guò)多次卷積計(jì)算,和特征提取,最終把整個(gè)語(yǔ)句映射到多個(gè)類別中,取概率最高的類別來(lái)進(jìn)行表情匹配。
3.智能自動(dòng)回復(fù)
智能理解文本內(nèi)容,自動(dòng)生成回復(fù)建議供用戶選擇回復(fù)。
顧名思義,這個(gè)功能賦予了系統(tǒng)智能自動(dòng)回復(fù)的能力。當(dāng)用戶收到某條信息時(shí),系統(tǒng)可以智能理解文本內(nèi)容,生成幾個(gè)選項(xiàng),作為可回復(fù)句子的備選,讓回復(fù)消息也變成了動(dòng)一下手指就能解決的事情。這在大大為用戶提高了回復(fù)效率的同時(shí),也能保證回復(fù)質(zhì)量:使對(duì)話持續(xù)且有效地進(jìn)行,避免答非所問(wèn)的“尬聊”,實(shí)現(xiàn)對(duì)用戶問(wèn)題的有效而精準(zhǔn)的回復(fù)。
在忙碌的生活中,我們經(jīng)常會(huì)有不方便與其他人進(jìn)行聊天的情況。而這時(shí),借助智能自動(dòng)回復(fù)的能力,聊天也變成了一鍵可實(shí)現(xiàn)的事情:只需要選中文本,選擇智能回復(fù)功能,并在備選項(xiàng)中選擇自己想回復(fù)的內(nèi)容條目,便可直接進(jìn)行回復(fù)。
技術(shù)原理:
從互聯(lián)網(wǎng)上抓取數(shù)億量級(jí)的人與人間的公開(kāi)對(duì)話語(yǔ)料,使用這些海量數(shù)據(jù)訓(xùn)練Seq2Seq深度學(xué)習(xí)模型構(gòu)建智能自動(dòng)回復(fù)系統(tǒng)。
原始對(duì)話訓(xùn)練數(shù)據(jù)示例
Seq2Seq生成式對(duì)話模型:
Seq2Seq模型生成自動(dòng)回復(fù)的過(guò)程分為Encoder和Decoder先后兩個(gè)階段:
?在Encoder階段,按照輸入句中詞序的正反兩個(gè)方向逐個(gè)處理每個(gè)詞:
?通過(guò)GRU/LSTM單元來(lái)融合以下因素,生成句首到當(dāng)前詞的左子句語(yǔ)義表示Li
?當(dāng)前詞的語(yǔ)義表示Xi
?左側(cè)上一位置左子句的語(yǔ)義表示Li-1
?通過(guò)GRU/LSTM單元來(lái)融合以下因素,生成句尾到當(dāng)前詞的右子句語(yǔ)義表示Ri
?當(dāng)前詞的語(yǔ)義表示Xi
?右側(cè)下一位置右子句的語(yǔ)義表示Ri-1
?在Decoder階段,逐個(gè)生成輸出句中的每個(gè)詞
?通過(guò)GRU/LSTM單元融合以下因素,生成當(dāng)前位置的隱層語(yǔ)義表示Si:
?由Attention Mechanism生成當(dāng)前位置的語(yǔ)義表示Ci
Ci計(jì)算過(guò)程如下:
?Encoder階段每個(gè)詞的左右子句語(yǔ)義表示(Lj和Rj)拼接為Hj
?根據(jù)Si-1及Hj,計(jì)算當(dāng)前位置與每個(gè)Hj的權(quán)重aij
?Ci 為所有Hj與aij乘積的加和
?生成序列中上一位置詞的語(yǔ)義表示Yi-1;
?生成序列中上一位置的隱層表示Si-1
?基于當(dāng)前位置的隱層語(yǔ)義表示Si,使用Softmax層計(jì)算得到詞表中每個(gè)詞的概率分布,并選擇出最大概率的詞為當(dāng)前位置輸出詞
?當(dāng)選擇出的輸出詞為句尾標(biāo)志時(shí),整句生成結(jié)束
在實(shí)際Decoder過(guò)程中,使用Beam Search方法最終輸出概率最大的N個(gè)輸出序列。
可以將我們生成回復(fù)的模型近似地想象為一個(gè)“翻譯機(jī)”。當(dāng)然,這和傳統(tǒng)意義上的翻譯并不是一回事,只是為了幫助大家理解這一過(guò)程打的比方。這個(gè)“翻譯機(jī)”采用了逐詞生成機(jī)制,根據(jù)輸入語(yǔ)句所包含的語(yǔ)義,以及上一階段生成的文字,對(duì)現(xiàn)階段將要生成的詞語(yǔ)進(jìn)行概率計(jì)算,最終逐個(gè)詞生成并連貫為一句話。
以上三個(gè)功能均由三角獸提供算法模型,并運(yùn)行在麒麟970芯片上,充分展示手機(jī)本地端做智能語(yǔ)義處理的能力。一般來(lái)說(shuō),移動(dòng)端AI由云端與終端兩部分組成,由于云端受限于時(shí)延和安全性等,催生AI的“推斷”部分向終端下沉。AI芯片級(jí)的自然語(yǔ)言處理能力,具有更高算力,更低時(shí)延、更低功耗,也相對(duì)安全。不難發(fā)現(xiàn),為底層終端注入AI能力可謂優(yōu)勢(shì)明顯,擁有巨大潛力與商業(yè)價(jià)值。
這些功能也更能在很大程度上優(yōu)化用戶體驗(yàn):一方面,這些功能省去了移動(dòng)端上的繁瑣操作,不但能直接提取關(guān)鍵信息進(jìn)行簡(jiǎn)便操作,還使消息回復(fù)也變得輕松快捷,大大提升了交互的便捷性;另一方面,在高效提升效率的同時(shí),對(duì)話過(guò)程的生動(dòng)流暢性也能得到保證,對(duì)話精確有效,且高度擬人化。這幾大功能的結(jié)合,必將重新定義用戶對(duì)手機(jī)交互的心理認(rèn)知。
三角獸在與企業(yè)的合作中也在積極探索,尋找最優(yōu)解決方案,發(fā)揚(yáng)自身技術(shù)能力,為企業(yè)和用戶不斷提升效率、降低成本,打造更佳使用體驗(yàn)。
最后,記得關(guān)注微信公眾號(hào):鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新
