谷歌的AI語(yǔ)音合成系統(tǒng)，幾乎與真人聲音無(wú)法區(qū)分？

Lotusun 8年前 (2017-12-28)

對(duì)于完全相同的單詞，Tacotron 2可以根據(jù)語(yǔ)境來(lái)發(fā)音。它還可以根據(jù)標(biāo)點(diǎn)符號(hào)的不同而有所區(qū)分，也可以在讀到大寫(xiě)單詞的時(shí)候加重語(yǔ)氣。

12月28日，據(jù)國(guó)外媒體WCCF Tech報(bào)道，谷歌表示，其最新版本人工智能（AI）語(yǔ)音合成系統(tǒng)Tacotron 2輸出的聲音幾乎與真人聲音無(wú)法區(qū)分。該系統(tǒng)是谷歌的第二代語(yǔ)音轉(zhuǎn)文本技術(shù)，它有兩個(gè)神經(jīng)網(wǎng)絡(luò)，用于輸出完美的語(yǔ)音。

第一個(gè)深度神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)將文本轉(zhuǎn)換成頻譜圖（以視覺(jué)方式呈現(xiàn)音頻頻率，通常是PDF格式），然后將這個(gè)頻譜圖載入到第二個(gè)深度神經(jīng)網(wǎng)絡(luò)WaveNet（來(lái)自Alphabet的AI研究實(shí)驗(yàn)室DeepMind）中，WaveNet讀取頻譜圖并生成相似的音頻元素。

語(yǔ)音轉(zhuǎn)文本并不是一種新技術(shù)，對(duì)于Mac用戶來(lái)說(shuō)，它已經(jīng)存在了相當(dāng)長(zhǎng)的一段時(shí)間。然而，谷歌聲稱其文本轉(zhuǎn)語(yǔ)音技術(shù)優(yōu)于大多數(shù)，幾乎無(wú)法與人類聲音區(qū)分開(kāi)來(lái)。

在國(guó)際上，目前的智能語(yǔ)音技術(shù)格局已經(jīng)被Nuance、谷歌、蘋果、微軟等IT巨頭壟斷。在國(guó)內(nèi)市場(chǎng)，科大訊飛、百度、思必馳等智能語(yǔ)音解決方案也各顯特色，展現(xiàn)了較好的中文語(yǔ)音信息處理技術(shù)。

但是智能語(yǔ)音技術(shù)仍然有語(yǔ)義理解不夠深入，無(wú)法理解人類講話習(xí)慣、音調(diào)、音速，無(wú)法理解上下文語(yǔ)境等痛點(diǎn)。

谷歌的文本到語(yǔ)音系統(tǒng)，聲稱能夠?qū)⑽谋镜囊馑紲?zhǔn)確理解、斷句，然后再準(zhǔn)確的以語(yǔ)音形式輸出。如果谷歌Tacotron 2真如其所講的那樣輸出準(zhǔn)確，與人類聲音難以區(qū)分，此系統(tǒng)真可謂是個(gè)黑科技了。

最后，記得關(guān)注微信公眾號(hào)：鎂客網(wǎng)（im2maker），更多干貨在等你！

鎂客網(wǎng)

科技 | 人文 | 行業(yè)

微信ID：im2maker

長(zhǎng)按識(shí)別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新

国内精品久久影院综合日日,中文字幕乱码亚洲无线三区,欧美亚洲综合成人专区,51久久夜色精品国产水果派解说,国语自产精品视频在线第100页

谷歌的AI語(yǔ)音合成系統(tǒng)，幾乎與真人聲音無(wú)法區(qū)分？

最新文章

注冊(cè)

国内精品久久影院综合日日,中文字幕乱码亚洲无线三区,欧美亚洲综合成人专区,51久久夜色精品国产水果派解说,国语自产精品视频在线第100页

谷歌的AI語(yǔ)音合成系統(tǒng)，幾乎與真人聲音無(wú)法區(qū)分？

最新文章

登錄

注冊(cè)

谷歌的AI語(yǔ)音合成系統(tǒng)，幾乎與真人聲音無(wú)法區(qū)分？