谷歌的AI語音合成系統(tǒng),幾乎與真人聲音無法區(qū)分?

Lotusun 8年前 (2017-12-28)

對于完全相同的單詞,Tacotron 2可以根據(jù)語境來發(fā)音。它還可以根據(jù)標(biāo)點(diǎn)符號的不同而有所區(qū)分,也可以在讀到大寫單詞的時(shí)候加重語氣。

12月28日,據(jù)國外媒體WCCF Tech報(bào)道,谷歌表示,其最新版本人工智能(AI)語音合成系統(tǒng)Tacotron 2輸出的聲音幾乎與真人聲音無法區(qū)分。該系統(tǒng)是谷歌的第二代語音轉(zhuǎn)文本技術(shù),它有兩個(gè)神經(jīng)網(wǎng)絡(luò),用于輸出完美的語音。

第一個(gè)深度神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)將文本轉(zhuǎn)換成頻譜圖(以視覺方式呈現(xiàn)音頻頻率,通常是PDF格式),然后將這個(gè)頻譜圖載入到第二個(gè)深度神經(jīng)網(wǎng)絡(luò)WaveNet(來自Alphabet的AI研究實(shí)驗(yàn)室DeepMind)中,WaveNet讀取頻譜圖并生成相似的音頻元素。

語音轉(zhuǎn)文本并不是一種新技術(shù),對于Mac用戶來說,它已經(jīng)存在了相當(dāng)長的一段時(shí)間。然而,谷歌聲稱其文本轉(zhuǎn)語音技術(shù)優(yōu)于大多數(shù),幾乎無法與人類聲音區(qū)分開來。

對于完全相同的單詞,Tacotron 2可以根據(jù)語境來發(fā)音。它還可以根據(jù)標(biāo)點(diǎn)符號的不同而有所區(qū)分,也可以在讀到大寫單詞的時(shí)候加重語氣。

在國際上,目前的智能語音技術(shù)格局已經(jīng)被Nuance谷歌、蘋果微軟等IT巨頭壟斷。在國內(nèi)市場,科大訊飛、百度、思必馳等智能語音解決方案也各顯特色,展現(xiàn)了較好的中文語音信息處理技術(shù)。

但是智能語音技術(shù)仍然有語義理解不夠深入,無法理解人類講話習(xí)慣、音調(diào)、音速,無法理解上下文語境等痛點(diǎn)。

谷歌的文本到語音系統(tǒng),聲稱能夠?qū)⑽谋镜囊馑紲?zhǔn)確理解、斷句,然后再準(zhǔn)確的以語音形式輸出。如果谷歌Tacotron 2真如其所講的那樣輸出準(zhǔn)確,與人類聲音難以區(qū)分,此系統(tǒng)真可謂是個(gè)黑科技了。

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動創(chuàng)新

分享到