谷歌正在研究能夠讓計(jì)算機(jī)合成語(yǔ)音更加自然的技術(shù)

Lotusun 8年前 (2018-03-28)

研究通過(guò)將人類語(yǔ)音片段嵌入計(jì)算機(jī)語(yǔ)音風(fēng)格,來(lái)獲得重音等效果。

3月28日,據(jù)國(guó)外媒體報(bào)道,谷歌研究院正在探索讓機(jī)器合成語(yǔ)音更加自然的方法。谷歌大腦機(jī)器感知團(tuán)隊(duì)的成員本周二在博客中公布了一些能讓語(yǔ)音更具有表現(xiàn)力的方法示例。

同時(shí),谷歌發(fā)布了“云端文本轉(zhuǎn)語(yǔ)音”服務(wù)的測(cè)試版,提供了與谷歌助手同樣的語(yǔ)音合成服務(wù)。該服務(wù)采用了DeepMind的WaveNet技術(shù),這個(gè)技術(shù)可以被用于生成非常自然的聲音。

谷歌正在研究能夠讓計(jì)算機(jī)合成語(yǔ)音更加自然的技術(shù)

有報(bào)道顯示,谷歌研究員近期發(fā)表了兩篇論文,提出了新的發(fā)音方法,介紹了如何模仿語(yǔ)音中的重音或語(yǔ)調(diào)。這兩篇論文的技術(shù)都是基于Tacotron2。Tacotron2是谷歌去年12月份推出的人工智能系統(tǒng),使用神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,模仿人類語(yǔ)音。

Tacotron在大部分情況下都可以模擬真人聲音,但是卻無(wú)法模仿說(shuō)話中的重音和自然語(yǔ)調(diào)。Tacotron的聯(lián)合發(fā)明人Wang Yuxuan參與了其中一篇論文研究。研究通過(guò)將人類語(yǔ)音片段嵌入計(jì)算機(jī)語(yǔ)音風(fēng)格,使合成語(yǔ)音中實(shí)現(xiàn)了重音等效果。另一篇論文的研究則使用無(wú)監(jiān)督訓(xùn)練和識(shí)別語(yǔ)音模式,并模仿某些語(yǔ)音風(fēng)格。

在語(yǔ)音技術(shù)研發(fā)上,去年蘋果Siri被眾多消費(fèi)者認(rèn)為是更加具有表現(xiàn)力的聲音。同時(shí)去年四月,亞馬遜Alexa面向語(yǔ)音應(yīng)用開發(fā)者提供了SSML標(biāo)簽,在語(yǔ)音助手中增加了更豐富的表達(dá),例如停頓、輕語(yǔ),以及一些感嘆詞等。

最后,記得關(guān)注微信公眾號(hào):鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(zhǎng)按識(shí)別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新

分享到