近幾年,Midjourney 被認為是 AI 繪圖界的首選,也產生了許多廣為流傳的 AI 繪圖成果。但就在 2024 年 2 月,知名圖庫廠商 Freepik 宣布推出了自家的 AI 繪圖工具,針對付費使用者全面開放。8 月則引入了全新的繪圖模型,震撼了 AI 繪圖的市場。
由於夏木樂也是長年的 Freepik 用戶,讓我們帶來第一手的介紹吧。除此之外,本篇文章會稍微比較一下 Freepik 最新繪圖模型與 Midjourney v6.1 的差異。
什麼是 Freepik?
Freepik 是近幾年崛起的圖庫資源平台,它提供了非常廣泛的設計素材,包括向量圖、插圖、圖示、PSD 模板和照片,且大多數都是免費的,唯一的限制就是要提供標註連結回 Freepik。
如果您不希望標連結,Freepik 也提供了 Premium 方案,讓訂閱者獲得無限制的下載次數、無廣告體驗以及付費會員專屬的高品質素材。
Freepik 剛推出時,以提供免費素材為主,但經營有成,近幾年已經擴展成具有豐富資源的巨大平台。它擁有以下這些服務與工具:
Freepik Assets
Freepik AI Tools
Flaticons
Freepik Videos
Freepik LOGO Makers
3D Models
Freepik Fonts … 等等
Freepik 過去便已是 AI 公司
Freepik 過去便已經提供大量的 AI 生成的圖庫,品質都非常高,不是粗製濫造的那種,很適合用在各類圖文創作領域。
除此之外,付費使用者也可以使用一些周邊的 AI 工具來強化這些圖片。例如自動去背:
或是自動延伸背景
因此,這次 Freepik 推出自有的繪圖工具,其實並不意外,真正令大家驚豔的是其繪圖品質與背後的模型,後面會繼續介紹。
Freepik AI Image Generator
Freepik AI 繪圖工具,是其眾多 AI 功能的其中一個,只要從網站上方 Tools 就可以進入。
進入之後,介面非常簡單,只要從左上輸入提示詞,然後從左邊側邊欄選擇各類參數與設定,例如長寬比例、風格,視角等等。按下下方「Create」,就能開始繪圖。
側邊欄可以選擇的項目有很多:
History 頁籤也可以觀看繪圖歷史,並選擇是否重用這些指令:
如果你點擊產生出來的圖片,就可以像圖庫那樣,執行去背或延伸
Freepik 使用的繪圖模型
左邊側欄的 Mode,可以選擇你要用的模型
Freepik 用的繪圖模型,是今年8月才剛推出的 Flux.1,這個模型雖然很新,但其繪圖品質卻已經遠超其他模型,引發各界關注。而 8 月底,Freepik 則推出了自家的 Mystic 模型,是從 Flux 優化調整而來的模型。
Mystic 模型的優點在於它能夠非常忠實的重現指令內所描述的細節與人物動作,不會有嚴重跑位的狀況。在某些評論中,認為他在圖片真實度與細節上已經超越了 Midjourney。
關於 Flux 模型
說到 AI 繪圖模型,近幾年最普遍的 AI 繪圖模型是開源的 Stable Diffusion,幾乎所有的 AI 繪圖模型,底層可能都基於這個模型。即便非開源的 Midjounery,大家也猜測是基於 Stable Diffusion 改良出來的。
而在 2024 年 8 月,Stable Diffusion 前作者之一 Blackforest Labs 推出了震撼市場的 Flux.1 模型,擁有 120 億個參數。此模型透過利用 Flow Matching(一種訓練包含擴散的生成模型的簡單方法),優於先前的 Diffusion 模型。據稱他的繪圖結果能夠比其他模型更貼近指令文字、手部的繪圖也優於其他模型,並擁有更好的執行效能。
相關新聞見: Black Forest Labs開源圖像生成模型Flux
與 Midjourney 的比較
既然網路上都說 Flux / Mystic 優於 Midjourney v6.1,那就讓我們實際測試看看。
接下來的測試,都是以純指令為主,不會去用 UI 介面上的風格選項。Flux 部分選擇的是標準 Flux 模型,不是 Fast 模型。每個指令都會產生2-3次,取普遍發生的狀況的說明。
測試圖像細節: 持弓的女性
我們先來比較圖片真實性,以下是我用的測試指令,由於弓箭在我的過去經驗是很容易出錯的項目,適合用來測試模型的能力:
photorealistic, a medieval woman wearing a ranger suit raised her bow and drew it towards the camera, preparing to fire, with a focused face
Midjourney 版本
偏向非常近的特寫,人物變化較多,但畫質較為奶油,弓的角度錯誤較大,還有出現穿過拇指的狀況。
Freepik Flux
人物變化較少,弓的角度正確,畫質與光線清晰舒適,手沒有穿模,但角度不正確。
Freepik Mystic
真實度與放大看的細節最細緻。不過可能訓練資料最少,弓的出錯狀況是最多的。
總結
弓的角度對 AI 來說很難處理,所以出錯機率三個模型都很高。不過 Midjourney 較能還原中古世紀的弓箭樣貌,Freepik 的看起來都像現代弓或訓練弓,有時候還會出現螺絲。
而 Midjourney 的人物變化是最多樣化的;Freepik 兩個模型都人物都很像,Mystic 甚至出現兩張服裝一樣的狀況。另外 Flux / Mystic 的女性臉部細節雖然清楚,但年紀似乎都偏大。顯示了可能兩者訓練素材的數量差異。
但可以確認的是在照片真實度上面,Flux 與 Mystic 都比 Midjourney 強不少,適合用在模擬照片用。Midjourney 則較有藝術感,適合用在創作上。
測試動態姿勢: 騎馬的女戰士
接下來也是出錯率高的指令,騎馬的女戰士,巨鷹準備落在手上,並且擺出高動態的姿勢
tilt angle view, Linear perspective, dynamic poses, a beautiful female soldier, wears animal skin and fur, riding a horse, a majestic eagle is landing on her arm, background of an open valley
Midjourney
Midjourney 一貫的帶有藝術氣息,就像遊戲宣傳照一樣。但人物動作就控制得不好了,手經常亂擺亂揮。甚至很多張根本就專心騎馬不理巨鷹XD。
有成功出現好好舉起手讓巨鷹降落的畫面大概只有 10 分之 1,其他都在亂揮。
Freepik Flux
Flux 產生出來的圖片,動作控制非常精準,好好地舉起手讓老鷹降落 (10 張只有 1 張會歪掉),但就沒有動態的感覺。畫面看起來像過度修圖的照片或寫實油畫,HDR 感也很重。人物的服裝變化就少很多,長的都很像。
Freepik Mystic
動作與構圖都非常像 Flux,但細緻度高了一個檔次,也沒有過度的 HDR 感。是三者中最少出現畫面崩壞與細節瑕疵的。但動作一樣篇靜態,看起來較像是廣告擺拍的畫面。
總結
整體下來,Midjourney 依然是較適合用在創作領域上,動態效果非常好,視覺感強烈,人物造型也多樣化。
Flux 與 Mystic 則更適合用在圖庫、行銷、或是讓人分不出來的高擬真照片等等情境。
總結
當 Flux 模型與 Freepik Mystic 推出後,網路上許多聲音認為 Midjourney 的末日到了。夏格飛倒是認為沒有這麼誇張。
身為兩邊都重度使用的玩家,其實可以感覺的到兩者繪圖的差異真的很大。Midjourney 的藝術感真的不是蓋的,雖然錯誤較多,但超高的多樣化可以幫助創作者帶來更多靈感。相較之下 Flux 與 Mystic 雖然擁有極高的清晰度與真實度,但構圖則較為簡單。這應該是訓練走向不一樣的關係。
當然 Midjourney 推出的久,訓練樣本應該更多也是會有差別的,Flux 與 Mystic 明顯的每張圖相似性很高,多樣化較為不足。如果改用插畫風格做比較,也是類似的狀況。
不過,作為圖庫用的輔助工具,其實 Freepik 的 AI 繪圖也算是非常實用了,因為這些高擬真的照片,更適合用在嚴肅題材例如雜誌、新聞等等用途。相較之下 Midjourney 的高藝術性,較難用在商業使用的場合。
每個工具都有他的特性,看完這篇文章後,讀者們不如嘗試都玩玩看,找到適合自己的繪圖工具吧。
延伸閱讀: