最懂中國傳統(tǒng)文化的AI繪畫生成模型——文瀾與繪畫模型的創(chuàng)新結(jié)合

王飽飽 3年前 (2022-10-22)

盧志武教授團(tuán)隊(duì)打造了一款最懂中國傳統(tǒng)文化的AI繪畫生成模型。

最近AI繪畫生成模型在國內(nèi)外掀起了一波AI繪畫熱潮,在各種社交媒體上都能看見用戶分享的用AI工具生成的各種圖片,甚至AI生成的作品獲得了國際上的重要獎(jiǎng)項(xiàng)。受此啟發(fā),中國人民大學(xué)盧志武教授團(tuán)隊(duì)將文瀾模型與最新的圖像生成技術(shù)進(jìn)行創(chuàng)新結(jié)合,打造了一款最懂中國傳統(tǒng)文化的AI繪畫生成模型。

文瀾模型是中國人民大學(xué)高瓴人工智能學(xué)院執(zhí)行院長(zhǎng)文繼榮教授牽頭研發(fā)的大規(guī)模中文多模態(tài)預(yù)訓(xùn)練模型。文瀾模型經(jīng)過6.5億弱相關(guān)中文圖文對(duì)的預(yù)訓(xùn)練,學(xué)習(xí)到獨(dú)特的中文語言理解能力并能很好地將中文語義與視覺信息聯(lián)系起來,尤其擅長(zhǎng)理解中文獨(dú)有的含蓄語義與圖片中的抽象概念。相關(guān)研究成果“Towards artificial general intelligence via a multimodal foundation model”已經(jīng)發(fā)表在Nature Communications上,并初步形成了一定的影響力。

最懂中國傳統(tǒng)文化的AI繪畫生成模型——文瀾與繪畫模型的創(chuàng)新結(jié)合

論文鏈接:https://www.nature.com/articles/s41467-022-30761-2

盧志武教授團(tuán)隊(duì)進(jìn)一步挖掘文瀾模型的潛力,將其與最新的生成技術(shù)進(jìn)行創(chuàng)新性的結(jié)合,融合文瀾的抽象語義理解能力與生成模型的強(qiáng)大生成能力,確保得到的模型能夠出色地理解輸入文本的語義并生成具有對(duì)應(yīng)語義的圖片。該研究團(tuán)隊(duì)專注于挖掘文瀾對(duì)于中國傳統(tǒng)文化的理解,借用最新的生成模型架構(gòu),并在所搜集的國畫數(shù)據(jù)集上進(jìn)行訓(xùn)練,得到的模型能根據(jù)中國傳統(tǒng)文學(xué)生成對(duì)應(yīng)風(fēng)格的圖片。具體而言,該研究團(tuán)隊(duì)在國畫數(shù)據(jù)集上訓(xùn)練了一個(gè)無條件生成模型,并在生成過程中沿著與輸入文本接近的方向不斷調(diào)整生成圖片的內(nèi)容,使得最終的圖片內(nèi)容與輸入文本在文瀾模型的隱空間中趨于一致,從而實(shí)現(xiàn)根據(jù)文本語義生成圖片的功能。該模型能夠根據(jù)輸入的中國古詩詞生成對(duì)應(yīng)的圖片,從給出的下述例子中可以看出,生成的圖片與古詩詞的內(nèi)容和意境都非常契合。

最懂中國傳統(tǒng)文化的AI繪畫生成模型——文瀾與繪畫模型的創(chuàng)新結(jié)合

通過大量的測(cè)試驗(yàn)證,盧志武教授團(tuán)隊(duì)發(fā)現(xiàn)文瀾繪畫模型甚至對(duì)晦澀難懂的儒釋道思想也有獨(dú)到的理解,生成的繪畫作品開始獲得相關(guān)領(lǐng)域?qū)<业母叨日J(rèn)可。為了更好地展現(xiàn)文瀾繪畫模型在解讀儒釋道思想上的特色,研究團(tuán)隊(duì)挑選了國內(nèi)外最熱門的AI繪畫模型進(jìn)行對(duì)比分析,包含盜夢(mèng)師、文心、Disco Diffusion、Midjourney和Stable Diffusion。對(duì)Disco Diffusion、Midjourney和Stable Diffusion而言,中文文本需要先經(jīng)過百度翻譯。詳細(xì)的分析結(jié)果如下。

儒家思想:

最懂中國傳統(tǒng)文化的AI繪畫生成模型——文瀾與繪畫模型的創(chuàng)新結(jié)合

儒家思想方面,挑選了王陽明心學(xué)的三句代表性話。通過生成的結(jié)果來看,盜夢(mèng)師、Disco Diffusion、Midjourney和Stable Diffusion偏向于生成句子中的一些具象物體,或者生成一些畫面較好但內(nèi)容與句子并無太大關(guān)系的圖片。文心則是傾向于生成帶有人物的圖片,甚至將光明直接理解成點(diǎn)燃的蠟燭。這些方法均無法較好地理解輸入文本中的儒家思想。與之相反,文瀾繪畫模型能夠更好地理解整句話的意思以及其中蘊(yùn)含的儒家思想,從而生成符合該思想的圖片。

釋家思想:

最懂中國傳統(tǒng)文化的AI繪畫生成模型——文瀾與繪畫模型的創(chuàng)新結(jié)合

對(duì)于含有釋家思想的文本輸入,目前最火的繪畫生成模型均只能抓住其中的一些具象物體并進(jìn)行針對(duì)性的生成,有的繪畫模型甚至?xí)e(cuò)誤地理解其中的思想。比如,文心就將“見道忘山者人間亦寂也,見山忘道者山中也喧也”理解成了道家的思想(生成了一個(gè)道士的形象)。反觀文瀾繪畫模型則是很好地理解了輸入文本的釋家思想并將之反映在生成的圖片中。

道家思想:

最懂中國傳統(tǒng)文化的AI繪畫生成模型——文瀾與繪畫模型的創(chuàng)新結(jié)合

道家思想方面,主要挑選了道德經(jīng)中三句最核心的話。文心相對(duì)于盜夢(mèng)師、Disco Diffusion、Midjourney和Stable Diffusion,對(duì)道德經(jīng)有較好的理解。但是,整體來說,文瀾繪畫模型對(duì)道家思想理解得更為透徹,生成的圖片比文心更加具有道家的意境。

習(xí)近平總書記在二十大中提出“全面建設(shè)社會(huì)主義現(xiàn)代化國家,必須堅(jiān)持中國特色社會(huì)主義文化發(fā)展道路,增強(qiáng)文化自信,圍繞舉旗幟、聚民心、育新人、興文化、展形象建設(shè)社會(huì)主義文化強(qiáng)國,發(fā)展面向現(xiàn)代化、面向世界、面向未來的,民族的科學(xué)的大眾的社會(huì)主義文化,激發(fā)全民族文化創(chuàng)新創(chuàng)造活力,增強(qiáng)實(shí)現(xiàn)中華民族偉大復(fù)興的精神力量”。盧志武教授團(tuán)隊(duì)正是響應(yīng)了這一號(hào)召,將最近大火的AI繪畫生成技術(shù)與中文多模態(tài)預(yù)訓(xùn)練模型文瀾結(jié)合起來,深度挖掘文瀾模型的中國傳統(tǒng)文化理解能力,并通過生成模型以圖片的形式展現(xiàn)出來,讓普通老百姓對(duì)一些深?yuàn)W的中國傳統(tǒng)文化思想有了更直觀的了解,從而為創(chuàng)新性地傳播中國傳統(tǒng)文化貢獻(xiàn)力量。該研究團(tuán)隊(duì)將會(huì)繼續(xù)深挖文瀾模型對(duì)中華傳統(tǒng)文化的理解,并進(jìn)一步運(yùn)用最新技術(shù)展現(xiàn)中國傳統(tǒng)文化在AI時(shí)代的最新理解!

 

最后,記得關(guān)注微信公眾號(hào):鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(zhǎng)按識(shí)別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新

分享到