三角獸與華為麒麟970聯(lián)合演示芯片級語義處理方案
三角獸與麒麟970聯(lián)合演示本地快速處理智能語義意圖及信息提取、智能表情生成、智能自動回復(fù)等功能,強(qiáng)化手機(jī)終端精確語義認(rèn)知的能力,
當(dāng)前,人工智能已經(jīng)是最熱門的技術(shù)。但縱觀產(chǎn)業(yè)界,大多人工智能的技術(shù)和能力都是在云端部署,很少有在端側(cè)部署的。今年9月,華為發(fā)布的麒麟970和蘋果發(fā)布的A11這兩款業(yè)界僅有的人工智能手機(jī)芯片,徹底改變了產(chǎn)業(yè)格局。其中,華為發(fā)布的麒麟970是業(yè)界首款人工智能手機(jī)芯片,是在端側(cè)人工智能領(lǐng)域的一次突破性探索,開創(chuàng)了人工智能手機(jī)應(yīng)用行業(yè)先河。
作為全球領(lǐng)先的ICT廠商,華為此次能夠在全球率先推出人工智能手機(jī)芯片麒麟970 并不令人意外。相較前作960,除了CPU能效提升20%,GPU性能提升20%、能效提升50%之外,還創(chuàng)新設(shè)計了HiAI移動計算架構(gòu),首次集成NPU(Neural Network Processing Unit)專用硬件處理單元,其AI性能密度大幅優(yōu)于CPU和GPU。相較于四個Cortex-A73核心,在處理同樣的AI應(yīng)用任務(wù)時,新的異構(gòu)計算架構(gòu)擁有大約25倍性能和50倍能效優(yōu)勢,這意味著麒麟970芯片可以用更少的能耗更快地完成AI計算任務(wù)。作為對深度學(xué)習(xí)、人工智能的前瞻性探索,華為這次用芯片級的方案,對硬件做到了“底層武裝”。
三角獸與麒麟970聯(lián)合演示本地快速處理智能語義意圖及信息提取、智能表情生成、智能自動回復(fù)等功能,強(qiáng)化手機(jī)終端精確語義認(rèn)知的能力,打造極致手機(jī)操作和交互體驗。在這些功能的基礎(chǔ)上,可為手機(jī)拓展出豐富多樣的解決方案,讓手機(jī)更懂用戶,提供更好的交互體驗。
那么,這些功能具體是什么,又該如何應(yīng)用呢?讓我們詳細(xì)研究一下:
1.智能語義意圖及信息提取
智能分析文本隱含的語義意圖并提取關(guān)鍵信息,對應(yīng)到相關(guān)的功能和服務(wù),以此優(yōu)化用戶文本編輯的效率,減少操作路徑。
在我們?nèi)粘J褂檬謾C(jī)的過程中,我們經(jīng)常遇到以下場景:
朋友推薦了一個不錯的餐廳,希望得知它的價格、環(huán)境或?qū)Ш饺ニ奈恢茫?/p>
看到感興趣的歌手的新聞,希望了解TA的更多新聞或收聽TA熱門的歌曲;
一篇文章中提到的電影,想買一張它的電影票去附近影院觀看。
一個感覺不錯的商品,想了解商品詳情或價格;
在目前手機(jī)系統(tǒng)中,進(jìn)行這些操作都比較繁瑣,以微信聊天內(nèi)容的地址查詢舉例:
我們需要在復(fù)制整段文本后,找到地圖應(yīng)用,然后用“胡蘿卜”似的手指對著一群細(xì)小的文字不斷觸碰,精確選擇到“北京市朝陽區(qū)惠新東街2號”,再進(jìn)行搜索,才能查詢到所需內(nèi)容。
經(jīng)過三角獸智能語義理解能力的裝備后,這個繁瑣的步驟則可以一步到位了,不用找應(yīng)用,不用為難我們“胡蘿卜”似的手指,你只需點擊再點擊就可以了!
于是,在手機(jī)在收到大段信息之后,不管是地址還是吃喝玩樂等信息,都可以同樣的一鍵識別,秒懂你的需求。下面,我們來看幾個平時經(jīng)常出現(xiàn)的具體應(yīng)用場景:
跟朋友聊天、提到了某個餐廳時,選擇這段文本,系統(tǒng)就可以識別提取出該餐廳名稱,并結(jié)合大眾點評等app獲取它的詳細(xì)資料,一鍵直接得知其價格、地址、環(huán)境等信息,是不是非常方便?
既然這種語義認(rèn)知能力可以輕輕松松智能識別提取出商店、地址等種種信息,那么商品、視頻名稱等等關(guān)鍵詞自然也不在話下了。在相關(guān)app的支持下,用戶同樣可以一鍵獲取購物鏈接、視頻信息等,輕松實現(xiàn)后續(xù)動作。
技術(shù)原理:
通過數(shù)百萬級的各種場景下語料(如新聞、百度百科、百度知道、聊天、論壇、短信等),訓(xùn)練而成Bi-LSTM模型的Seq2Seq模型。
基于Seq2Seq的方法,將命名實體識別抽象為一個序列標(biāo)注的過程,具體分為Encoder和Decoder兩個階段:
?在Encoder階段,詞的序列分別按照句子行文的次序正向和反向通過LSTM的Cell
?在每個詞的位置,生成截止到當(dāng)前位置句子的正向和反向語義表示 和 (其中, 表示位置的語義表示,表示正向,表示反向)
?在Decoder階段,按照詞序列的順序,生成每個詞對應(yīng)的命名實體識別的結(jié)果(如果不是一個命名實體,則輸出Other)
?解碼階段,會綜合當(dāng)前位置的隱層語義 ( 表示位置,以下同理),上一個命名實體輸出 ,以及基于Attention Mechanism的Context Embedding的三個語義變量,共同構(gòu)成Decoder LSTM Cell的輸入
具體到Context Embedding向量 的計算過程:
?根據(jù)與encoder階段的 系列,系列計算Attention的權(quán)重
?,系列與權(quán)重 進(jìn)行加權(quán)求和,得到用于生成位置 的命名實體所需要的上下文語義變量
?在Decoder輸出隱層語義 之后,再通過Softmax層,將隱層變量空間,映射到命名實體分類體系空間,得到每種命名實體的概率,再選出概率最大的命名實體進(jìn)行最終輸出
這段是不是說的太高深,很難懂?沒關(guān)系,咱們來個簡單的解釋:Encoder可以理解為把人類的自然語言翻譯為機(jī)器語言,Decoder可以理解為機(jī)器用自己的語言對人類的自然語言進(jìn)行解釋,識別出每個詞語的意義。比如對于“那家渝鄉(xiāng)小館的辣子雞真好吃”這句話,在Decoder階段,對于“渝鄉(xiāng)小館”這一實體,計算機(jī)對其上文(前序詞語)和下文(后序詞語)進(jìn)行理解后,并經(jīng)過模型的概率計算,得出結(jié)果為“渝鄉(xiāng)小館”最大概率是一家餐廳。上文例子中的“五道口看戰(zhàn)狼2”中,同樣的道理可以將“五道口”識別為地址,“戰(zhàn)狼2”識別為電影。
目前,整個模型支持20多種命名實體的識別,可應(yīng)用于各類不同app與場景中。
2.智能表情生成
智能分析文本隱含情緒意圖,輔助用戶選擇最合適的表情。
聊天機(jī)器人并不罕見,但是一個能準(zhǔn)確了解你的心思,還能幫你回復(fù)表情表示復(fù)雜情緒的機(jī)器人,是不是就比較稀有了?裝備了智能表情生成功能之后,通過模型,聊天機(jī)器人可自行計算判斷對話中體現(xiàn)的情緒意圖,并在回復(fù)時列出概率最高的表情作為備選項,進(jìn)行便捷回復(fù)。
收到消息后,用戶只需輕松點擊對話文本,選擇智能表情回復(fù),就可以點選表情進(jìn)行回復(fù)了,省去了在大量表情庫里苦苦尋覓可用表情的麻煩。
目前三角獸能夠智能生成回復(fù)的表情包括20個,除了常規(guī)的開心、難過等簡單類別,更能通過計算判斷回復(fù)尷尬、驚恐、賣萌等復(fù)雜表情。
智能表情生成示例
技術(shù)原理:
抓取數(shù)億級帶有表情標(biāo)簽的公開對話語料,經(jīng)數(shù)據(jù)清理后選擇出數(shù)千萬高質(zhì)量數(shù)據(jù),使用這些數(shù)據(jù)訓(xùn)練CNN模型構(gòu)建智能情緒分類系統(tǒng),下圖為帶有表情標(biāo)簽的原始訓(xùn)練數(shù)據(jù)示例:
CNN模型判斷一段文本的情緒分類分為以下階段:
?Embedding Layer
?查詢輸入句子中每個詞的Word Embedding,組合成句子的二維語義表示
?Convolution Layer
?定義多個大小的卷積窗口,以覆蓋多種長度的相鄰詞組
?滑動各窗口對句子的二維語義表示進(jìn)行卷積操作,獲取相鄰詞組的語義特征
?Max-Pooling Layer
?通過取最大值方式,分別對每個窗口生成的語義特征進(jìn)行采樣,以減少特征維數(shù)并捕獲最重要語義特征信息
?Full connected layer
?將各窗口Pooling之后的語義特征進(jìn)行拼接,并經(jīng)過非線性變換輸出整句語義特征
?Softmax Layer
?整句語義特征經(jīng)過Softmax層計算得到各表情的概率預(yù)估值
最終選擇出概率最大的N個情緒類別作為最終輸出。
簡單地說,就是通過多次卷積計算,和特征提取,最終把整個語句映射到多個類別中,取概率最高的類別來進(jìn)行表情匹配。
3.智能自動回復(fù)
智能理解文本內(nèi)容,自動生成回復(fù)建議供用戶選擇回復(fù)。
顧名思義,這個功能賦予了系統(tǒng)智能自動回復(fù)的能力。當(dāng)用戶收到某條信息時,系統(tǒng)可以智能理解文本內(nèi)容,生成幾個選項,作為可回復(fù)句子的備選,讓回復(fù)消息也變成了動一下手指就能解決的事情。這在大大為用戶提高了回復(fù)效率的同時,也能保證回復(fù)質(zhì)量:使對話持續(xù)且有效地進(jìn)行,避免答非所問的“尬聊”,實現(xiàn)對用戶問題的有效而精準(zhǔn)的回復(fù)。
在忙碌的生活中,我們經(jīng)常會有不方便與其他人進(jìn)行聊天的情況。而這時,借助智能自動回復(fù)的能力,聊天也變成了一鍵可實現(xiàn)的事情:只需要選中文本,選擇智能回復(fù)功能,并在備選項中選擇自己想回復(fù)的內(nèi)容條目,便可直接進(jìn)行回復(fù)。
技術(shù)原理:
從互聯(lián)網(wǎng)上抓取數(shù)億量級的人與人間的公開對話語料,使用這些海量數(shù)據(jù)訓(xùn)練Seq2Seq深度學(xué)習(xí)模型構(gòu)建智能自動回復(fù)系統(tǒng)。
原始對話訓(xùn)練數(shù)據(jù)示例
Seq2Seq生成式對話模型:
Seq2Seq模型生成自動回復(fù)的過程分為Encoder和Decoder先后兩個階段:
?在Encoder階段,按照輸入句中詞序的正反兩個方向逐個處理每個詞:
?通過GRU/LSTM單元來融合以下因素,生成句首到當(dāng)前詞的左子句語義表示Li
?當(dāng)前詞的語義表示Xi
?左側(cè)上一位置左子句的語義表示Li-1
?通過GRU/LSTM單元來融合以下因素,生成句尾到當(dāng)前詞的右子句語義表示Ri
?當(dāng)前詞的語義表示Xi
?右側(cè)下一位置右子句的語義表示Ri-1
?在Decoder階段,逐個生成輸出句中的每個詞
?通過GRU/LSTM單元融合以下因素,生成當(dāng)前位置的隱層語義表示Si:
?由Attention Mechanism生成當(dāng)前位置的語義表示Ci
Ci計算過程如下:
?Encoder階段每個詞的左右子句語義表示(Lj和Rj)拼接為Hj
?根據(jù)Si-1及Hj,計算當(dāng)前位置與每個Hj的權(quán)重aij
?Ci 為所有Hj與aij乘積的加和
?生成序列中上一位置詞的語義表示Yi-1;
?生成序列中上一位置的隱層表示Si-1
?基于當(dāng)前位置的隱層語義表示Si,使用Softmax層計算得到詞表中每個詞的概率分布,并選擇出最大概率的詞為當(dāng)前位置輸出詞
?當(dāng)選擇出的輸出詞為句尾標(biāo)志時,整句生成結(jié)束
在實際Decoder過程中,使用Beam Search方法最終輸出概率最大的N個輸出序列。
可以將我們生成回復(fù)的模型近似地想象為一個“翻譯機(jī)”。當(dāng)然,這和傳統(tǒng)意義上的翻譯并不是一回事,只是為了幫助大家理解這一過程打的比方。這個“翻譯機(jī)”采用了逐詞生成機(jī)制,根據(jù)輸入語句所包含的語義,以及上一階段生成的文字,對現(xiàn)階段將要生成的詞語進(jìn)行概率計算,最終逐個詞生成并連貫為一句話。
以上三個功能均由三角獸提供算法模型,并運行在麒麟970芯片上,充分展示手機(jī)本地端做智能語義處理的能力。一般來說,移動端AI由云端與終端兩部分組成,由于云端受限于時延和安全性等,催生AI的“推斷”部分向終端下沉。AI芯片級的自然語言處理能力,具有更高算力,更低時延、更低功耗,也相對安全。不難發(fā)現(xiàn),為底層終端注入AI能力可謂優(yōu)勢明顯,擁有巨大潛力與商業(yè)價值。
這些功能也更能在很大程度上優(yōu)化用戶體驗:一方面,這些功能省去了移動端上的繁瑣操作,不但能直接提取關(guān)鍵信息進(jìn)行簡便操作,還使消息回復(fù)也變得輕松快捷,大大提升了交互的便捷性;另一方面,在高效提升效率的同時,對話過程的生動流暢性也能得到保證,對話精確有效,且高度擬人化。這幾大功能的結(jié)合,必將重新定義用戶對手機(jī)交互的心理認(rèn)知。
三角獸在與企業(yè)的合作中也在積極探索,尋找最優(yōu)解決方案,發(fā)揚自身技術(shù)能力,為企業(yè)和用戶不斷提升效率、降低成本,打造更佳使用體驗。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅(qū)動創(chuàng)新
