您的位置：首頁(yè) > 資訊 >

“一句話生成畫(huà)作”火了！百度推出“中國(guó)風(fēng)”AI工具

來(lái)源：量子位 ? 2022-08-24 14:37:16

家人們，聽(tīng)說(shuō)了嗎?

最近在“一句話生成畫(huà)作”這個(gè)圈子里，又一個(gè)AI工具悄然火起來(lái)了。

不是你以為的Disco Diffusion、DALL·E，再或者Imagen……

而是全圈子都在講中國(guó)話的那種。

瞧，已經(jīng)入圈的小伙伴們，都開(kāi)始紛紛曬自己搞出來(lái)的杰作了：

從網(wǎng)友們上傳的諸多畫(huà)作來(lái)看，這個(gè)AI可以cover的風(fēng)格還真不少。

腦洞大開(kāi)的《熊貓騎摩托》，中國(guó)山水畫(huà)里的春天小雨，絢麗的概念插畫(huà)《亞特蘭蒂斯》，甚至一只黑白色調(diào)的戴帽子抽煙的狗……

那這個(gè)既能支持中文，又能hold住眾多畫(huà)風(fēng)的AI工具，到底是什么來(lái)頭?

不賣(mài)關(guān)子。

它的廬山真面目，正是百度最新對(duì)外發(fā)布的一款中文作畫(huà)AI——文心·一格。

類似這種“你說(shuō)我畫(huà)”的AI，聽(tīng)說(shuō)在國(guó)外已經(jīng)火了很長(zhǎng)一段時(shí)間。

現(xiàn)在終于等到了個(gè)國(guó)產(chǎn)版的，那么它到底好不好用呢?

「文心·一格」的初體驗(yàn)

既然在這個(gè)圈子流行講中文，那咱就先從“中國(guó)風(fēng)”開(kāi)始上手。

例如輸進(jìn)去極具古典韻味的“江南水鄉(xiāng)”，然后在方向和風(fēng)格上選擇“傳統(tǒng)”、“中國(guó)風(fēng)”。

國(guó)產(chǎn)AI作畫(huà)神器火了：更懂中文竟然還能做周邊

僅需等待片刻時(shí)間，“啪的一下”，一幅符合語(yǔ)義和風(fēng)格的畫(huà)作就誕生了：

嘿~還別說(shuō)，這畫(huà)還真有一股子“小橋流水人家”的味道。

既然是國(guó)風(fēng)，那就更傳統(tǒng)一點(diǎn)，直接輸入一句古詩(shī)詞，看文心·一格會(huì)作何反應(yīng)：

云深不知處。

整體來(lái)說(shuō)，這幅畫(huà)作確實(shí)是把“云之深”韻味展現(xiàn)得到位了。

據(jù)了解，文心·一格還可以繼續(xù)加大難度。針對(duì)AI圖像生成技術(shù)的資深用戶，一格即將開(kāi)放高級(jí)自定義功能，支持文本描述結(jié)合參數(shù)設(shè)置的方式探索更多創(chuàng)意。

當(dāng)然，也可以在”藝術(shù)家精品畫(huà)廊”里先瀏覽下內(nèi)測(cè)用戶已經(jīng)生成的圖片，像下面這張：

講真，若非知道這是AI創(chuàng)作的，第一眼還以為是哪個(gè)動(dòng)漫中的場(chǎng)景，是有夠絢爛的了。

還有下面這一張，也同樣稱得上是驚艷絕倫。

但正所謂“貨比三家”，那么文心·一格作為AI作畫(huà)這條賽道的“后起之秀”，和國(guó)外的產(chǎn)品相比又如何呢?

下一個(gè)挑戰(zhàn)環(huán)節(jié)，就是國(guó)內(nèi)AI vs. 國(guó)外AI——惡犬咆哮。

較為明顯的是，Disco Diffusion的風(fēng)格更趨向于狂野;而文心·一格則是更偏向現(xiàn)實(shí)主義一些。

再拿文心·一格和DALL·E 2做個(gè)比較——畢加索風(fēng)格的貓：

在看完這兩者的創(chuàng)作對(duì)比，你覺(jué)得誰(shuí)家的更畢加索一些呢?

不過(guò)在這般效果背后，對(duì)應(yīng)的問(wèn)題也隨之而來(lái)：

要生成風(fēng)格更全面的圖片，文心·一格的用法會(huì)更復(fù)雜嗎?

懂中文，也懂“懶人”

用起來(lái)，并不復(fù)雜。

我們從操作界面、提示詞要求和性能要求幾方面，對(duì)Disco Diffusion和文心·一格等AI畫(huà)畫(huà)產(chǎn)品進(jìn)行了簡(jiǎn)單對(duì)比。

操作界面上，Disco Diffusion開(kāi)放的接口不能說(shuō)很復(fù)雜，但確實(shí)有點(diǎn)門(mén)檻。

它直接在谷歌Colab上運(yùn)行，需要申請(qǐng)賬號(hào)后使用(圖片生成后保存在云盤(pán))，圖像分辨率、尺寸需要手動(dòng)輸入，此外還有一些模型上的設(shè)置。

好處是可更改的參數(shù)更多，對(duì)于高端玩家來(lái)說(shuō)可操作性更強(qiáng)，只是比較適合專門(mén)研究AI算法的人群：

國(guó)產(chǎn)AI作畫(huà)神器火了：更懂中文竟然還能做周邊

相比之下，文心·一格的操作只需三個(gè)步驟：輸入文字，鼠標(biāo)選擇風(fēng)格&尺寸，點(diǎn)擊生成。

國(guó)產(chǎn)AI作畫(huà)神器火了：更懂中文竟然還能做周邊

前文已經(jīng)提到，文心·一格同樣也具備Disco Diffusion的“高級(jí)自定義”功能，隨后便會(huì)開(kāi)放，對(duì)于想擁有更多“參數(shù)自由”的小伙伴們來(lái)說(shuō)，同樣是個(gè)不錯(cuò)的選擇。

至于提示詞，Disco Diffusion的設(shè)置還要更麻煩一些。

除了描述畫(huà)面的內(nèi)容以外，包括畫(huà)作類別和參考的藝術(shù)家風(fēng)格也都得用提示詞來(lái)設(shè)置，通常大伙兒會(huì)在其他文檔中編輯好，再直接粘過(guò)來(lái)。

國(guó)產(chǎn)AI作畫(huà)神器火了：更懂中文竟然還能做周邊

關(guān)鍵一旦提示詞設(shè)置得不好，生成的效果就不盡如人意，需要反復(fù)嘗試、不斷細(xì)化，AI最終才能生成合適的畫(huà)面效果。

相比之下文心·一格倒是沒(méi)有格式要求，輸入150字的句子或詞組都可以：

國(guó)產(chǎn)AI作畫(huà)神器火了：更懂中文竟然還能做周邊

當(dāng)然，輸入畫(huà)家名字如莫奈，也能輸出對(duì)應(yīng)風(fēng)格：

最后是性能要求上，Disco Diffusion是有GPU使用限制的，每天只能免費(fèi)跑3小時(shí)。抱抱臉(HuggingFace)上部分AI文生圖算法的Demo雖然操作簡(jiǎn)單些，但一旦網(wǎng)速不行，就容易加載不出來(lái)：

△測(cè)試mini DALL·E時(shí)加載就失敗過(guò)

相比之下，文心·一格除了使用高峰期以外，基本上都是2分鐘就能生成，對(duì)使用設(shè)備也沒(méi)有要求。

總體來(lái)看，同樣是文字生成圖片AI，實(shí)際相比文心·一格的“真·一句話生成圖片”，DALL·E和Disco Diffusion的生成過(guò)程都不太輕松。

所以在這背后，文心·一格生成圖像，究竟是基于一個(gè)怎樣的邏輯?

我們以輸入“云深不知處”為例，希望能輸出一幅中國(guó)風(fēng)的畫(huà)作。當(dāng)接收到這幾個(gè)字詞(query)后，AI的腦細(xì)胞就開(kāi)始“運(yùn)作”了起來(lái)，從語(yǔ)法、詞法、語(yǔ)義等角度對(duì)文本進(jìn)行分析。

如果將生成過(guò)程可視化，這個(gè)階段還看不出什么效果，處于AI理解文本的階段：

很快，AI“拆解”文本后，理解要怎么畫(huà)這幅畫(huà)了，于是在特定尺寸(用戶可選)的畫(huà)紙上，構(gòu)思出整體的輪廓，兼具云的元素和中國(guó)畫(huà)的風(fēng)格：

隨后，基于擴(kuò)散生成模型的原理，迭代地完善并修正畫(huà)面細(xì)節(jié)，不斷提高清晰度、反復(fù)檢查圖文描述一致性，用更精確的配色替代噪聲：

最后，生成名為《云深不知處》的完整畫(huà)作：

看似“一句話生成圖片”不難，其實(shí)對(duì)AI語(yǔ)義理解和圖像生成能力提出了進(jìn)一步要求。

為了能更好地理解文本、提升輸出效果，文心·一格還在百度文心的圖文生成跨模態(tài)模型ERNIE-VilG的基礎(chǔ)上，進(jìn)行了更詳細(xì)的優(yōu)化。

為了提升圖文理解能力，在知識(shí)增強(qiáng)的基礎(chǔ)上，引入跨模態(tài)多視角對(duì)比學(xué)習(xí);

為了降低輸入要求同時(shí)提升效果，采用基于知識(shí)的文本聯(lián)想能力，讓模型學(xué)會(huì)自己擴(kuò)展提示詞的細(xì)節(jié)和風(fēng)格;

為了提升圖像生成能力，采用漸進(jìn)式擴(kuò)散模型訓(xùn)練算法，讓模型來(lái)選擇效果最好的生成網(wǎng)絡(luò)。

此外，在訓(xùn)練和數(shù)據(jù)上，文心大模型的產(chǎn)業(yè)級(jí)能力也進(jìn)一步給文心·一格提供了幫助，例如AI訓(xùn)練數(shù)據(jù)和平時(shí)在產(chǎn)業(yè)實(shí)踐中積累的經(jīng)驗(yàn)，都能應(yīng)用到文心·一格的模型中去;至于百度知識(shí)圖譜的算法能力，則進(jìn)一步提升了模型通用性。

值得一提的是，如果開(kāi)發(fā)者想將文心·一格的能力用到產(chǎn)品中，直接調(diào)用ERNIE-VilG的API接口就行，可以說(shuō)是非常方便了。

One More Thing

我們?cè)谠囃嫖男?middot;一格的時(shí)候，還發(fā)現(xiàn)了左下角這些有意思的應(yīng)用場(chǎng)景，一鍵就能生成預(yù)覽：

例如，頗有自如風(fēng)格的裝飾畫(huà)：

老板批量發(fā)年貨時(shí)印的編織袋(手動(dòng)狗頭)：

其實(shí)，這也是文心·一格區(qū)別于Disco Diffusion、OpenAI的DALL·E 2的另一個(gè)特點(diǎn)——更強(qiáng)的實(shí)用性。

不僅普通玩家可以用來(lái)生成自己想畫(huà)但畫(huà)不出來(lái)的內(nèi)容，絕不會(huì)有兩幅相同的畫(huà)作，腦洞再放大點(diǎn)，就連媒體作者等文字內(nèi)容創(chuàng)作者，也能用它高質(zhì)量高效率配圖。

(嗯，以后你看量子位的文章，說(shuō)不定有些配圖就是用AI生成的)

專業(yè)畫(huà)師、或是設(shè)計(jì)師和藝術(shù)家，更可以用它來(lái)啟發(fā)靈感、輔助創(chuàng)作。

當(dāng)然，從官網(wǎng)看來(lái)，這個(gè)產(chǎn)品還在更新迭代、進(jìn)一步優(yōu)化中。

至于未來(lái)是否會(huì)在更多數(shù)字藏品、插畫(huà)、海報(bào)和電影動(dòng)漫中，看見(jiàn)文心·一格的畫(huà)作?

我們拭目以待。

標(biāo)簽：一句話生成畫(huà)作百度發(fā)布中文作畫(huà)AI 國(guó)產(chǎn)AI作畫(huà)神器熊貓騎摩托

色翁荡息又大又硬又粗又视频软件,人人妻人人爽.,人人妻人人狠人人爽天天综合网,欧美精品亚洲精品日韩已满十八 ,欧美激情猛片xxxⅹ大3

“一句話生成畫(huà)作”火了！百度推出“中國(guó)風(fēng)”AI工具

相關(guān)推薦