谷歌的AI語(yǔ)音合成系統(tǒng),幾乎與真人聲音無(wú)法區(qū)分?

Lotusun 8年前 (2017-12-28)

對(duì)于完全相同的單詞,Tacotron 2可以根據(jù)語(yǔ)境來(lái)發(fā)音。它還可以根據(jù)標(biāo)點(diǎn)符號(hào)的不同而有所區(qū)分,也可以在讀到大寫(xiě)單詞的時(shí)候加重語(yǔ)氣。

12月28日,據(jù)國(guó)外媒體WCCF Tech報(bào)道,谷歌表示,其最新版本人工智能(AI)語(yǔ)音合成系統(tǒng)Tacotron 2輸出的聲音幾乎與真人聲音無(wú)法區(qū)分。該系統(tǒng)是谷歌的第二代語(yǔ)音轉(zhuǎn)文本技術(shù),它有兩個(gè)神經(jīng)網(wǎng)絡(luò),用于輸出完美的語(yǔ)音。

第一個(gè)深度神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)將文本轉(zhuǎn)換成頻譜圖(以視覺(jué)方式呈現(xiàn)音頻頻率,通常是PDF格式),然后將這個(gè)頻譜圖載入到第二個(gè)深度神經(jīng)網(wǎng)絡(luò)WaveNet(來(lái)自Alphabet的AI研究實(shí)驗(yàn)室DeepMind)中,WaveNet讀取頻譜圖并生成相似的音頻元素。

語(yǔ)音轉(zhuǎn)文本并不是一種新技術(shù),對(duì)于Mac用戶來(lái)說(shuō),它已經(jīng)存在了相當(dāng)長(zhǎng)的一段時(shí)間。然而,谷歌聲稱其文本轉(zhuǎn)語(yǔ)音技術(shù)優(yōu)于大多數(shù),幾乎無(wú)法與人類聲音區(qū)分開(kāi)來(lái)。

對(duì)于完全相同的單詞,Tacotron 2可以根據(jù)語(yǔ)境來(lái)發(fā)音。它還可以根據(jù)標(biāo)點(diǎn)符號(hào)的不同而有所區(qū)分,也可以在讀到大寫(xiě)單詞的時(shí)候加重語(yǔ)氣。

在國(guó)際上,目前的智能語(yǔ)音技術(shù)格局已經(jīng)被Nuance、谷歌、蘋果、微軟等IT巨頭壟斷。在國(guó)內(nèi)市場(chǎng),科大訊飛、百度、思必馳等智能語(yǔ)音解決方案也各顯特色,展現(xiàn)了較好的中文語(yǔ)音信息處理技術(shù)。

但是智能語(yǔ)音技術(shù)仍然有語(yǔ)義理解不夠深入,無(wú)法理解人類講話習(xí)慣、音調(diào)、音速,無(wú)法理解上下文語(yǔ)境等痛點(diǎn)。

谷歌的文本到語(yǔ)音系統(tǒng),聲稱能夠?qū)⑽谋镜囊馑紲?zhǔn)確理解、斷句,然后再準(zhǔn)確的以語(yǔ)音形式輸出。如果谷歌Tacotron 2真如其所講的那樣輸出準(zhǔn)確,與人類聲音難以區(qū)分,此系統(tǒng)真可謂是個(gè)黑科技了。

最后,記得關(guān)注微信公眾號(hào):鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(zhǎng)按識(shí)別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新

分享到