谷歌AI可以替你打電話(huà)了,“這下真分不清電話(huà)對(duì)面是人是狗了”

伶軒 8年前 (2018-05-10)

小場(chǎng)景有限話(huà)題模擬對(duì)話(huà)不是什么新鮮事,針對(duì)demo優(yōu)化到流暢也不難,但和真人對(duì)話(huà)能力是兩碼事。

鎂客注:

Google Duplex的應(yīng)變能力讓人驚艷,甚至有人說(shuō),以后,我們將分不清電話(huà)對(duì)面是人還是狗。

但換個(gè)場(chǎng)景試試?

可以看到,谷歌此次展示的是在特定場(chǎng)景下,其語(yǔ)音助手“真人式”的表演。作為“宣傳者”,Google Duplex是成功的。然而,“表演”都是讓人驚艷的,實(shí)際落地、應(yīng)用的過(guò)程中問(wèn)題也是很多的,包括谷歌。

本文基于Google Duplex展現(xiàn)的功能,從歷年來(lái)人工智能技術(shù)發(fā)展進(jìn)程及落地的脫節(jié)或者進(jìn)步情況出發(fā),探討AI技術(shù)未來(lái)的普及之路。

本文轉(zhuǎn)自尋找中國(guó)創(chuàng)客;作者:蔡浩爽,編輯:魏佳;作者公眾號(hào):尋找中國(guó)創(chuàng)客(ID:xjbmaker)

正文:

人工智能距離“成精”又近一步。

北京時(shí)間5月9日凌晨,2018谷歌 I/O大會(huì)上,谷歌助手Google Assistant為社交恐懼癥患者帶來(lái)福音:

有了這個(gè)人工智能助理,你再也不用自己打電話(huà)去點(diǎn)外賣(mài)、預(yù)約理發(fā)店、餐廳、美容院、家政服務(wù)……

只要告訴Google Assistant你的需求,它就會(huì)像真人助理一樣,幫你在后臺(tái)打電話(huà)搞定這些事,并且及時(shí)反饋給你預(yù)約結(jié)果。

這個(gè)名為Google Duplex的技術(shù)驚艷了整個(gè)舊金山山景城。

谷歌AI可以替你打電話(huà)了,“這下真分不清電話(huà)對(duì)面是人是狗了”

谷歌首席執(zhí)行官皮查伊(Sundar Pichai)在谷歌園區(qū)的圓頂露天劇場(chǎng)里展示谷歌助手打電話(huà)的兩個(gè)場(chǎng)景時(shí),Google Assistant對(duì)話(huà)的流暢及仿真程度引起臺(tái)下諸多科技媒體一陣陣驚呼:你根本無(wú)法辨別電話(huà)對(duì)面的是真人還是機(jī)器。

搞混時(shí)間和人數(shù)都沒(méi)能干擾它

“我能幫你做點(diǎn)什么?”理發(fā)店客服在電話(huà)里問(wèn)。

“我想幫一位客戶(hù)預(yù)約女士理發(fā),嗯…我想預(yù)約5月3日的時(shí)間。”電話(huà)這頭,谷歌語(yǔ)音助手流暢地說(shuō)明自己打電話(huà)的意圖,甚至還在對(duì)話(huà)中模仿人類(lèi)口語(yǔ),加上了“emmmm” 這種表示思考的停頓。其語(yǔ)調(diào)的抑揚(yáng)頓挫,完全不同于常見(jiàn)語(yǔ)音助手的機(jī)械音。

當(dāng)理發(fā)店客服表示“稍等,我查詢(xún)一下”后,Google Assistant停頓了一秒——它可能在理解這句話(huà)的意圖——隨后說(shuō)出了“嗯哼”,俏皮的語(yǔ)氣引得臺(tái)下哄堂大笑。

值得注意的是,在理發(fā)店客服表示Google Assistant 預(yù)約的12點(diǎn)已經(jīng)約滿(mǎn),建議預(yù)約下午1點(diǎn)15分的時(shí)間時(shí),Google Assistant并未直接接受,而是詢(xún)問(wèn)上午10點(diǎn)到12點(diǎn)是否有可預(yù)約的時(shí)間,隨后挑選合適時(shí)間并順利完成預(yù)約。

皮查伊表示,這是Google Assistant 打電話(huà)給理發(fā)店完成預(yù)約的真實(shí)場(chǎng)景。

谷歌AI可以替你打電話(huà)了,“這下真分不清電話(huà)對(duì)面是人是狗了”

在整個(gè)預(yù)約過(guò)程中,Google Assistant發(fā)音自然,語(yǔ)調(diào)、語(yǔ)速并不讓人感到怪異,就連停頓、“嗯…”等表示思考的小細(xì)節(jié)都考慮到了。

在皮查伊展示的第二個(gè)場(chǎng)景中,Google Assistant的應(yīng)變能力更是讓人驚艷。

第二個(gè)場(chǎng)景是預(yù)定餐位,從口音判斷,餐廳接線員不是native speaker,對(duì)英文的理解并不準(zhǔn)確。接線員數(shù)次搞混 Google Assistant表達(dá)的時(shí)間、人數(shù)等信息,比如把“預(yù)定本月7號(hào)”聽(tīng)成“有7個(gè)人用餐”。Google Assistant一次次糾正信息,并且在干擾下牢記核心任務(wù)。

讓皮查伊更感到驕傲的是,當(dāng)餐廳接線員表示,四人在工作日就餐不需預(yù)約時(shí),Google Assistant并沒(méi)有選擇結(jié)束對(duì)話(huà),而是自發(fā)追問(wèn)了一句:“通常等位要多久?”

“我們遇到過(guò)很多這種發(fā)展方向跟預(yù)想不同的對(duì)話(huà),但神奇的是,Google Assistant可以理解上下文情景和對(duì)話(huà)的細(xì)微差別。在這段對(duì)話(huà)中,它知道要問(wèn)等位時(shí)間,非常得體地完成了對(duì)話(huà)。”皮查伊說(shuō)。

“在美國(guó),60%小商戶(hù)都沒(méi)有在線預(yù)約系統(tǒng)。”Google Assistant瞄準(zhǔn)這一痛點(diǎn),在后臺(tái)幫用戶(hù)完成預(yù)約等服務(wù),節(jié)省用戶(hù)時(shí)間。

兩年前的谷歌 I/O 開(kāi)發(fā)者大會(huì)上,Google Assistant 第一次亮相。兩年后的今天,據(jù)負(fù)責(zé)谷歌助理和搜索產(chǎn)品設(shè)計(jì)的副總裁尼克·??怂梗∟ick Fox)表示,Google Assistant 已經(jīng)是谷歌一項(xiàng)非常重要的業(yè)務(wù)。

谷歌AI可以替你打電話(huà)了,“這下真分不清電話(huà)對(duì)面是人是狗了”

圖 | 負(fù)責(zé)谷歌助理和搜索產(chǎn)品設(shè)計(jì)的副總裁尼克·福克斯(Nick Fox)

皮查伊同樣表示,這項(xiàng)名為Google Duplex的技術(shù),谷歌內(nèi)部已研究多年。Duplex翻譯過(guò)來(lái),可以叫“語(yǔ)音雙攻技術(shù)”。使用這一技術(shù),用戶(hù)只要提出需求,Google Assistant就可以直接在后臺(tái)完成,然后把結(jié)果通知給用戶(hù)。它將谷歌這些年來(lái)各種投資研發(fā)項(xiàng)目融會(huì)貫通,比如自然語(yǔ)言理解、深度學(xué)習(xí)、文字和語(yǔ)音轉(zhuǎn)換等。

而Google Duplex只是Google Assistant升級(jí)的一個(gè)方面。Google Assistant還對(duì)交互聲音進(jìn)行了全新升級(jí)優(yōu)化,增加了六個(gè)新的聲音;支持持續(xù)多輪對(duì)話(huà),讓對(duì)話(huà)更加自然;支持多重任務(wù)處理,把一句話(huà)中的多個(gè)任務(wù)拆解并完成,比如“把臥室和客廳的空調(diào)打開(kāi)。

目前,谷歌語(yǔ)音助手已經(jīng)支持全球80個(gè)國(guó)家和地區(qū),約30種語(yǔ)言,但遺憾的是,全球使用人口數(shù)量最多的漢語(yǔ)卻不在其中。

真的等于擁有真人助理?

Google Assistant新功能一經(jīng)展示,有網(wǎng)友在社交媒體留言稱(chēng):“這下真分不清電話(huà)對(duì)面是人是狗了。”

今年的開(kāi)發(fā)者大會(huì)上,Google Assistant力壓Android P,成為皮查伊展示的重頭戲。但皮查伊在開(kāi)發(fā)者大會(huì)上展示的demo距離落地還有多遠(yuǎn)?Google Assistant是否真的如此驚艷?

有觀點(diǎn)認(rèn)為,Google Assistant能做到打電話(huà)訂餐,其中最難突破的是要“理解一個(gè)真人的對(duì)話(huà)”,即理解自然場(chǎng)景中的對(duì)話(huà)。因?yàn)樵诂F(xiàn)實(shí)中,餐廳的接線員并不知道電話(huà)那一頭是一個(gè)機(jī)器人,而是把對(duì)方當(dāng)作真人,兩個(gè)真人之間即便是簡(jiǎn)單的交流,對(duì)機(jī)器來(lái)說(shuō)也會(huì)是復(fù)雜的,語(yǔ)速、口音、省略詞甚至是嘈雜的背景音,可能都會(huì)影響機(jī)器的識(shí)別。

不過(guò),從更多場(chǎng)景的角度上來(lái)講,Google Assistant可能還很局限。至少現(xiàn)在,人們不用擔(dān)心一個(gè)機(jī)器人打來(lái)的詐騙電話(huà)。

谷歌AI可以替你打電話(huà)了,“這下真分不清電話(huà)對(duì)面是人是狗了”

人工智能用戶(hù)體驗(yàn)公司Rokid創(chuàng)始人祝銘明坦言:“小場(chǎng)景有限話(huà)題模擬對(duì)話(huà)不是什么新鮮事,針對(duì)demo優(yōu)化到流暢也不難,和吹捧的什么真人對(duì)話(huà)能力是兩碼事。”

有資深科技評(píng)論員認(rèn)為,谷歌展示的如此智能的語(yǔ)音助手距離落地遙遙無(wú)期,但來(lái)自語(yǔ)音交互獨(dú)角獸思必馳的資深產(chǎn)品架構(gòu)專(zhuān)家戴中原認(rèn)為,在特定應(yīng)用場(chǎng)景,經(jīng)過(guò)大量訓(xùn)練,實(shí)現(xiàn)Google Assistant在demo中展示出的效果并不遙遠(yuǎn),“今年年底國(guó)內(nèi)一些廠家的產(chǎn)品上就可能實(shí)現(xiàn)。”

“Google今天所展示的功能,涉及語(yǔ)音識(shí)別、自然語(yǔ)言理解和會(huì)話(huà)管理的三大技術(shù)領(lǐng)域,我們內(nèi)部也已經(jīng)在研究。Google厲害之處可能在于,別人也能做到的事,它可以比別人做得更快。”

谷歌AI可以替你打電話(huà)了,“這下真分不清電話(huà)對(duì)面是人是狗了”

以TTS(Text To Speech,從文本到語(yǔ)音)技術(shù)為例,過(guò)去采用的是聲音素材拼接的方法,導(dǎo)致拼接出來(lái)的句子語(yǔ)調(diào)平平,沒(méi)有抑揚(yáng)頓挫和語(yǔ)音語(yǔ)調(diào),自然也感受不到像真人對(duì)話(huà)一樣的情感情緒。而谷歌旗下的DeepMind訓(xùn)練出了一個(gè)深度神經(jīng)網(wǎng)絡(luò)模型WaveNet,采用自然生成的方法,以少量的語(yǔ)料輔以強(qiáng)大的計(jì)算,生成原始語(yǔ)音,不僅更貼近真人,而且制作時(shí)長(zhǎng)也從幾個(gè)月降低到幾百小時(shí)。

“這一方面的技術(shù)我們也早已開(kāi)始研究,今年下半年預(yù)計(jì)會(huì)推出新場(chǎng)景下的應(yīng)用。” 戴中原表示。

那么,這一技術(shù)一旦搭載到智能手機(jī)等硬件中,是不是等同于每人都擁有了個(gè)人真人助理?事情恐怕沒(méi)那么簡(jiǎn)單。

谷歌AI可以替你打電話(huà)了,“這下真分不清電話(huà)對(duì)面是人是狗了”

戴中原表示,從自然語(yǔ)言訓(xùn)練的方法角度看,通過(guò)充分的數(shù)據(jù)梳理,借助機(jī)器學(xué)習(xí)在某個(gè)單一領(lǐng)域窮舉各種情況,繼而達(dá)到Google在今天所展示的效果尚有可能。但目前沒(méi)有公司可以做到全方位理解各種場(chǎng)景。也就是說(shuō),Google Assistant所擅長(zhǎng)的也是針對(duì)特定場(chǎng)景的,例如預(yù)訂餐位和理發(fā)。

“谷歌今天所展示的技術(shù)并未驚艷到我,但它作為宣傳者,在教育用戶(hù)方面的努力是很厲害的。”谷歌推出阿爾法狗,第一次將人工智能普及到普羅大眾。在戴中原看來(lái),此次谷歌開(kāi)發(fā)者大會(huì),最大的意義依然在于教育用戶(hù)。

識(shí)別機(jī)器打call教你一招

多年前,技術(shù)公司們就意識(shí)到智能語(yǔ)音互動(dòng)會(huì)成為下一代技術(shù)產(chǎn)品最核心的用戶(hù)入口。

作為人類(lèi)與機(jī)器交互的方式之一,語(yǔ)音助手在物聯(lián)網(wǎng)領(lǐng)域的入口性地位使得其成為兵家必爭(zhēng)之地,亞馬遜、蘋(píng)果、谷歌、微軟以及國(guó)內(nèi)BAT相繼推出智能音箱等搭載語(yǔ)音助手的硬件產(chǎn)品。

2014年11月,亞馬遜Echo面市,成了第一個(gè)智能音箱的爆款。一組對(duì)比大概可以直觀表現(xiàn)出Echo的成功:Echo面市后,兩周內(nèi)銷(xiāo)量即達(dá)100萬(wàn)。而iPhone用了70天才達(dá)到同樣的訂單數(shù)。據(jù)調(diào)查機(jī)構(gòu)此前預(yù)計(jì),2017年Echo銷(xiāo)量將突破1100萬(wàn)臺(tái)。

谷歌AI可以替你打電話(huà)了,“這下真分不清電話(huà)對(duì)面是人是狗了”

圖 | 亞馬遜Echo

察覺(jué)到市場(chǎng)變化,谷歌、蘋(píng)果和微軟也于兩年后在智能音箱領(lǐng)域逐步有所行動(dòng)。但相較于早早布局的亞馬遜,谷歌在語(yǔ)音助手方面失了先機(jī)。根據(jù)市場(chǎng)咨詢(xún)公司eMarketer發(fā)布的報(bào)告,美國(guó)智能音箱用戶(hù)約70.6%是亞馬遜用戶(hù),谷歌只占了23.8%。

Google Duplex是否會(huì)幫助Google Assistant翻盤(pán),一舉成為中國(guó)市場(chǎng)外應(yīng)用最廣的語(yǔ)音交互產(chǎn)品?

可見(jiàn)的是,谷歌和亞馬遜都在加強(qiáng)自己的音箱產(chǎn)品線。

2017年,谷歌又推出價(jià)位分別為40美元和400美元的智能音箱產(chǎn)品Home Mini和Home Max,而亞馬遜也已經(jīng)推出了價(jià)格從40美元到230美元不等的10款音箱產(chǎn)品。

物聯(lián)網(wǎng)時(shí)代,智能音箱作為較為成熟的交互手段,在現(xiàn)階段承載起人工智能家居、車(chē)載場(chǎng)景入口的厚望。從汽車(chē)中控、IoT 再到企業(yè)智能客服,語(yǔ)音助手市場(chǎng)上彌漫著搶占山頭的硝煙味兒。

Google Assistant 的演示已經(jīng)在C端吊足了消費(fèi)者的胃口,人們?cè)谄诖鼼oogle Assistant 帶來(lái)更多可能性的同時(shí),也擔(dān)憂(yōu)著由此帶來(lái)的電話(huà)詐騙等風(fēng)險(xiǎn)的提高。

戴中原表示,這是技術(shù)發(fā)展造成的矛與盾的問(wèn)題,但這一困擾也不是沒(méi)有辦法解決。“比如你接到推銷(xiāo)保險(xiǎn)的人工智能電話(huà),你可以跳出保險(xiǎn)圈子,跟他聊其他方面的事兒。因?yàn)槟壳暗娜斯ぶ悄苤荒鼙容^好地解決一個(gè)場(chǎng)景的對(duì)話(huà)。”

最后,記得關(guān)注微信公眾號(hào):鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(zhǎng)按識(shí)別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新

分享到