谷歌的AI語音合成系統(tǒng)，幾乎與真人聲音無法區(qū)分？

Lotusun 8年前 (2017-12-28)

對于完全相同的單詞，Tacotron 2可以根據(jù)語境來發(fā)音。它還可以根據(jù)標(biāo)點(diǎn)符號的不同而有所區(qū)分，也可以在讀到大寫單詞的時(shí)候加重語氣。

12月28日，據(jù)國外媒體WCCF Tech報(bào)道，谷歌表示，其最新版本人工智能（AI）語音合成系統(tǒng)Tacotron 2輸出的聲音幾乎與真人聲音無法區(qū)分。該系統(tǒng)是谷歌的第二代語音轉(zhuǎn)文本技術(shù)，它有兩個(gè)神經(jīng)網(wǎng)絡(luò)，用于輸出完美的語音。

第一個(gè)深度神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)將文本轉(zhuǎn)換成頻譜圖（以視覺方式呈現(xiàn)音頻頻率，通常是PDF格式），然后將這個(gè)頻譜圖載入到第二個(gè)深度神經(jīng)網(wǎng)絡(luò)WaveNet（來自Alphabet的AI研究實(shí)驗(yàn)室DeepMind）中，WaveNet讀取頻譜圖并生成相似的音頻元素。

語音轉(zhuǎn)文本并不是一種新技術(shù)，對于Mac用戶來說，它已經(jīng)存在了相當(dāng)長的一段時(shí)間。然而，谷歌聲稱其文本轉(zhuǎn)語音技術(shù)優(yōu)于大多數(shù)，幾乎無法與人類聲音區(qū)分開來。

在國際上，目前的智能語音技術(shù)格局已經(jīng)被Nuance、谷歌、蘋果、微軟等IT巨頭壟斷。在國內(nèi)市場，科大訊飛、百度、思必馳等智能語音解決方案也各顯特色，展現(xiàn)了較好的中文語音信息處理技術(shù)。

但是智能語音技術(shù)仍然有語義理解不夠深入，無法理解人類講話習(xí)慣、音調(diào)、音速，無法理解上下文語境等痛點(diǎn)。

谷歌的文本到語音系統(tǒng)，聲稱能夠?qū)⑽谋镜囊馑紲?zhǔn)確理解、斷句，然后再準(zhǔn)確的以語音形式輸出。如果谷歌Tacotron 2真如其所講的那樣輸出準(zhǔn)確，與人類聲音難以區(qū)分，此系統(tǒng)真可謂是個(gè)黑科技了。

最后，記得關(guān)注微信公眾號：鎂客網(wǎng)（im2maker），更多干貨在等你！

鎂客網(wǎng)

科技 | 人文 | 行業(yè)

微信ID：im2maker

長按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動創(chuàng)新

国内精品久久影院综合日日,中文字幕乱码亚洲无线三区,欧美亚洲综合成人专区,51久久夜色精品国产水果派解说,国语自产精品视频在线第100页

谷歌的AI語音合成系統(tǒng)，幾乎與真人聲音無法區(qū)分？

最新文章

注冊

国内精品久久影院综合日日,中文字幕乱码亚洲无线三区,欧美亚洲综合成人专区,51久久夜色精品国产水果派解说,国语自产精品视频在线第100页

谷歌的AI語音合成系統(tǒng)，幾乎與真人聲音無法區(qū)分？

最新文章

登錄

注冊

谷歌的AI語音合成系統(tǒng)，幾乎與真人聲音無法區(qū)分？