DeepMind再現(xiàn)黑科技:讓人工智能變身“作曲家”

巫盼 9年前 (2016-09-10)

時隔多日,DeepMind終于出新產(chǎn)品了。

DeepMind再現(xiàn)黑科技:讓人工智能變身“作曲家”

昨天,Google的DeepMind研究實驗室公布了一項最新成果——WaveNet。這是一項語音合成系統(tǒng),它能夠模仿人類的聲音,且生成的原始音頻質(zhì)量優(yōu)于目前的文本轉(zhuǎn)語音系統(tǒng)(text to speech,簡稱TTS)。

在過去幾年,深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用大幅度提高了計算機(jī)自然語言理解能力。然而,運用計算機(jī)生成語音(語音合成,或者TTS系統(tǒng))仍然主要依靠拼接式TTS——先錄制單一說話者的大量語音片段,建立一個大型數(shù)據(jù)庫,然后將語音片段合成完整的話語。這種語音合成方式不僅過程繁瑣,也很難對聲音加以修飾,從而無法表達(dá)強(qiáng)調(diào)或者情感。而這一難題的解決則需要運用一種參量改頻式(Parametric)TTS。

在這種TTS系統(tǒng)中,生成數(shù)據(jù)所需要的所有信息被存儲于模型的參數(shù)中,語音所傳達(dá)的內(nèi)容及語音特征可以通過模型的輸入信息得以控制。然而,目前參量改頻式TTS生成的語音聽起來還不如拼接式TTS模型生成的語音自然?,F(xiàn)有的參量改頻式模型通常將輸出的信息交給信號處理算法處理,從而生成音頻信號。

WaveNet的出現(xiàn)改變了這種方式,它直接用音頻信號的原始波形建模,并且是一次處理一個樣本。通過這種方式生成的語音不但聽起來更加自然,而且使用原始波形還能為任何聲音建模,包括模仿任何人的聲音,還能生成音樂。在測試中,WaveNet通過分析古典音樂,生成了一段鋼琴曲。

不過,雖然DeepMind宣稱,通過人耳測試,該技術(shù)使得模擬生成的語音與人類聲音之間的差異縮小了一半。但是,由于WaveNet需要強(qiáng)大的計算能力,近期也無法應(yīng)用到真實世界場景。

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動創(chuàng)新

分享到