谷歌AI可以替你打電話了,“這下真分不清電話對面是人是狗了”

伶軒 8年前 (2018-05-10)

小場景有限話題模擬對話不是什么新鮮事,針對demo優(yōu)化到流暢也不難,但和真人對話能力是兩碼事。

鎂客注:

Google Duplex的應(yīng)變能力讓人驚艷,甚至有人說,以后,我們將分不清電話對面是人還是狗。

但換個場景試試?

可以看到,谷歌此次展示的是在特定場景下,其語音助手“真人式”的表演。作為“宣傳者”,Google Duplex是成功的。然而,“表演”都是讓人驚艷的,實際落地、應(yīng)用的過程中問題也是很多的,包括谷歌。

本文基于Google Duplex展現(xiàn)的功能,從歷年來人工智能技術(shù)發(fā)展進程及落地的脫節(jié)或者進步情況出發(fā),探討AI技術(shù)未來的普及之路。

本文轉(zhuǎn)自尋找中國創(chuàng)客;作者:蔡浩爽,編輯:魏佳;作者公眾號:尋找中國創(chuàng)客(ID:xjbmaker)

正文:

人工智能距離“成精”又近一步。

北京時間5月9日凌晨,2018谷歌 I/O大會上,谷歌助手Google Assistant為社交恐懼癥患者帶來福音:

有了這個人工智能助理,你再也不用自己打電話去點外賣、預(yù)約理發(fā)店、餐廳、美容院、家政服務(wù)……

只要告訴Google Assistant你的需求,它就會像真人助理一樣,幫你在后臺打電話搞定這些事,并且及時反饋給你預(yù)約結(jié)果。

這個名為Google Duplex的技術(shù)驚艷了整個舊金山山景城。

谷歌AI可以替你打電話了,“這下真分不清電話對面是人是狗了”

谷歌首席執(zhí)行官皮查伊(Sundar Pichai)在谷歌園區(qū)的圓頂露天劇場里展示谷歌助手打電話的兩個場景時,Google Assistant對話的流暢及仿真程度引起臺下諸多科技媒體一陣陣驚呼:你根本無法辨別電話對面的是真人還是機器。

搞混時間和人數(shù)都沒能干擾它

“我能幫你做點什么?”理發(fā)店客服在電話里問。

“我想幫一位客戶預(yù)約女士理發(fā),嗯…我想預(yù)約5月3日的時間。”電話這頭,谷歌語音助手流暢地說明自己打電話的意圖,甚至還在對話中模仿人類口語,加上了“emmmm” 這種表示思考的停頓。其語調(diào)的抑揚頓挫,完全不同于常見語音助手的機械音。

當(dāng)理發(fā)店客服表示“稍等,我查詢一下”后,Google Assistant停頓了一秒——它可能在理解這句話的意圖——隨后說出了“嗯哼”,俏皮的語氣引得臺下哄堂大笑。

值得注意的是,在理發(fā)店客服表示Google Assistant 預(yù)約的12點已經(jīng)約滿,建議預(yù)約下午1點15分的時間時,Google Assistant并未直接接受,而是詢問上午10點到12點是否有可預(yù)約的時間,隨后挑選合適時間并順利完成預(yù)約。

皮查伊表示,這是Google Assistant 打電話給理發(fā)店完成預(yù)約的真實場景。

谷歌AI可以替你打電話了,“這下真分不清電話對面是人是狗了”

在整個預(yù)約過程中,Google Assistant發(fā)音自然,語調(diào)、語速并不讓人感到怪異,就連停頓、“嗯…”等表示思考的小細節(jié)都考慮到了。

在皮查伊展示的第二個場景中,Google Assistant的應(yīng)變能力更是讓人驚艷。

第二個場景是預(yù)定餐位,從口音判斷,餐廳接線員不是native speaker,對英文的理解并不準(zhǔn)確。接線員數(shù)次搞混 Google Assistant表達的時間、人數(shù)等信息,比如把“預(yù)定本月7號”聽成“有7個人用餐”。Google Assistant一次次糾正信息,并且在干擾下牢記核心任務(wù)。

讓皮查伊更感到驕傲的是,當(dāng)餐廳接線員表示,四人在工作日就餐不需預(yù)約時,Google Assistant并沒有選擇結(jié)束對話,而是自發(fā)追問了一句:“通常等位要多久?”

“我們遇到過很多這種發(fā)展方向跟預(yù)想不同的對話,但神奇的是,Google Assistant可以理解上下文情景和對話的細微差別。在這段對話中,它知道要問等位時間,非常得體地完成了對話。”皮查伊說。

“在美國,60%小商戶都沒有在線預(yù)約系統(tǒng)。”Google Assistant瞄準(zhǔn)這一痛點,在后臺幫用戶完成預(yù)約等服務(wù),節(jié)省用戶時間。

兩年前的谷歌 I/O 開發(fā)者大會上,Google Assistant 第一次亮相。兩年后的今天,據(jù)負責(zé)谷歌助理和搜索產(chǎn)品設(shè)計的副總裁尼克·??怂梗∟ick Fox)表示,Google Assistant 已經(jīng)是谷歌一項非常重要的業(yè)務(wù)。

谷歌AI可以替你打電話了,“這下真分不清電話對面是人是狗了”

圖 | 負責(zé)谷歌助理和搜索產(chǎn)品設(shè)計的副總裁尼克·福克斯(Nick Fox)

皮查伊同樣表示,這項名為Google Duplex的技術(shù),谷歌內(nèi)部已研究多年。Duplex翻譯過來,可以叫“語音雙攻技術(shù)”。使用這一技術(shù),用戶只要提出需求,Google Assistant就可以直接在后臺完成,然后把結(jié)果通知給用戶。它將谷歌這些年來各種投資研發(fā)項目融會貫通,比如自然語言理解、深度學(xué)習(xí)、文字和語音轉(zhuǎn)換等。

而Google Duplex只是Google Assistant升級的一個方面。Google Assistant還對交互聲音進行了全新升級優(yōu)化,增加了六個新的聲音;支持持續(xù)多輪對話,讓對話更加自然;支持多重任務(wù)處理,把一句話中的多個任務(wù)拆解并完成,比如“把臥室和客廳的空調(diào)打開。

目前,谷歌語音助手已經(jīng)支持全球80個國家和地區(qū),約30種語言,但遺憾的是,全球使用人口數(shù)量最多的漢語卻不在其中。

真的等于擁有真人助理?

Google Assistant新功能一經(jīng)展示,有網(wǎng)友在社交媒體留言稱:“這下真分不清電話對面是人是狗了。”

今年的開發(fā)者大會上,Google Assistant力壓Android P,成為皮查伊展示的重頭戲。但皮查伊在開發(fā)者大會上展示的demo距離落地還有多遠?Google Assistant是否真的如此驚艷?

有觀點認為,Google Assistant能做到打電話訂餐,其中最難突破的是要“理解一個真人的對話”,即理解自然場景中的對話。因為在現(xiàn)實中,餐廳的接線員并不知道電話那一頭是一個機器人,而是把對方當(dāng)作真人,兩個真人之間即便是簡單的交流,對機器來說也會是復(fù)雜的,語速、口音、省略詞甚至是嘈雜的背景音,可能都會影響機器的識別。

不過,從更多場景的角度上來講,Google Assistant可能還很局限。至少現(xiàn)在,人們不用擔(dān)心一個機器人打來的詐騙電話。

谷歌AI可以替你打電話了,“這下真分不清電話對面是人是狗了”

人工智能用戶體驗公司Rokid創(chuàng)始人祝銘明坦言:“小場景有限話題模擬對話不是什么新鮮事,針對demo優(yōu)化到流暢也不難,和吹捧的什么真人對話能力是兩碼事。”

有資深科技評論員認為,谷歌展示的如此智能的語音助手距離落地遙遙無期,但來自語音交互獨角獸思必馳的資深產(chǎn)品架構(gòu)專家戴中原認為,在特定應(yīng)用場景,經(jīng)過大量訓(xùn)練,實現(xiàn)Google Assistant在demo中展示出的效果并不遙遠,“今年年底國內(nèi)一些廠家的產(chǎn)品上就可能實現(xiàn)。”

“Google今天所展示的功能,涉及語音識別、自然語言理解和會話管理的三大技術(shù)領(lǐng)域,我們內(nèi)部也已經(jīng)在研究。Google厲害之處可能在于,別人也能做到的事,它可以比別人做得更快。”

谷歌AI可以替你打電話了,“這下真分不清電話對面是人是狗了”

以TTS(Text To Speech,從文本到語音)技術(shù)為例,過去采用的是聲音素材拼接的方法,導(dǎo)致拼接出來的句子語調(diào)平平,沒有抑揚頓挫和語音語調(diào),自然也感受不到像真人對話一樣的情感情緒。而谷歌旗下的DeepMind訓(xùn)練出了一個深度神經(jīng)網(wǎng)絡(luò)模型WaveNet,采用自然生成的方法,以少量的語料輔以強大的計算,生成原始語音,不僅更貼近真人,而且制作時長也從幾個月降低到幾百小時。

“這一方面的技術(shù)我們也早已開始研究,今年下半年預(yù)計會推出新場景下的應(yīng)用。” 戴中原表示。

那么,這一技術(shù)一旦搭載到智能手機等硬件中,是不是等同于每人都擁有了個人真人助理?事情恐怕沒那么簡單。

谷歌AI可以替你打電話了,“這下真分不清電話對面是人是狗了”

戴中原表示,從自然語言訓(xùn)練的方法角度看,通過充分的數(shù)據(jù)梳理,借助機器學(xué)習(xí)在某個單一領(lǐng)域窮舉各種情況,繼而達到Google在今天所展示的效果尚有可能。但目前沒有公司可以做到全方位理解各種場景。也就是說,Google Assistant所擅長的也是針對特定場景的,例如預(yù)訂餐位和理發(fā)。

“谷歌今天所展示的技術(shù)并未驚艷到我,但它作為宣傳者,在教育用戶方面的努力是很厲害的。”谷歌推出阿爾法狗,第一次將人工智能普及到普羅大眾。在戴中原看來,此次谷歌開發(fā)者大會,最大的意義依然在于教育用戶。

識別機器打call教你一招

多年前,技術(shù)公司們就意識到智能語音互動會成為下一代技術(shù)產(chǎn)品最核心的用戶入口。

作為人類與機器交互的方式之一,語音助手在物聯(lián)網(wǎng)領(lǐng)域的入口性地位使得其成為兵家必爭之地,亞馬遜、蘋果、谷歌、微軟以及國內(nèi)BAT相繼推出智能音箱等搭載語音助手的硬件產(chǎn)品。

2014年11月,亞馬遜Echo面市,成了第一個智能音箱的爆款。一組對比大概可以直觀表現(xiàn)出Echo的成功:Echo面市后,兩周內(nèi)銷量即達100萬。而iPhone用了70天才達到同樣的訂單數(shù)。據(jù)調(diào)查機構(gòu)此前預(yù)計,2017年Echo銷量將突破1100萬臺。

谷歌AI可以替你打電話了,“這下真分不清電話對面是人是狗了”

圖 | 亞馬遜Echo

察覺到市場變化,谷歌、蘋果和微軟也于兩年后在智能音箱領(lǐng)域逐步有所行動。但相較于早早布局的亞馬遜,谷歌在語音助手方面失了先機。根據(jù)市場咨詢公司eMarketer發(fā)布的報告,美國智能音箱用戶約70.6%是亞馬遜用戶,谷歌只占了23.8%。

Google Duplex是否會幫助Google Assistant翻盤,一舉成為中國市場外應(yīng)用最廣的語音交互產(chǎn)品?

可見的是,谷歌和亞馬遜都在加強自己的音箱產(chǎn)品線。

2017年,谷歌又推出價位分別為40美元和400美元的智能音箱產(chǎn)品Home Mini和Home Max,而亞馬遜也已經(jīng)推出了價格從40美元到230美元不等的10款音箱產(chǎn)品。

物聯(lián)網(wǎng)時代,智能音箱作為較為成熟的交互手段,在現(xiàn)階段承載起人工智能家居、車載場景入口的厚望。從汽車中控、IoT 再到企業(yè)智能客服,語音助手市場上彌漫著搶占山頭的硝煙味兒。

Google Assistant 的演示已經(jīng)在C端吊足了消費者的胃口,人們在期待Google Assistant 帶來更多可能性的同時,也擔(dān)憂著由此帶來的電話詐騙等風(fēng)險的提高。

戴中原表示,這是技術(shù)發(fā)展造成的矛與盾的問題,但這一困擾也不是沒有辦法解決。“比如你接到推銷保險的人工智能電話,你可以跳出保險圈子,跟他聊其他方面的事兒。因為目前的人工智能只能比較好地解決一個場景的對話。”

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動創(chuàng)新

分享到