跳轉到內容

人工智慧藝術生成手冊/人工智慧藝術生成的侷限性

來自華夏公益教科書,開放書籍,面向開放世界

截至目前,人工智慧藝術生成模型可能存在侷限性,包括最新的 FLUX 1.0-DEV。

我的侷限性標準是,如果人工智慧藝術無法在 75% 的時間內(4 張影像中的 3 張)生成。

影像 描述
1 人體解剖

人體解剖一直是人工智慧藝術生成的笑柄,大部分問題都集中在手/手指上。


如下所示,這幅人工智慧生成的女性影像有一些缺陷。

(i) 該女性有 3 隻手。

(ii) 該女性有 2 個肚臍。

(iii) 該女性右手的指尖接觸到岩石,有 6 根手指。

(iv) 該女性右腿的腳後跟看起來變形了。


注意:這可以透過使用 ControlNet 和最新的 AI 模型 (FLUX 1.0) 來解決。

2
DALL·E2 - Javan rhinoceros wearing a business suit and safety hard hats , holding a Under Construction signboard with background of construction area
DALL·E2 - 穿著西裝和安全帽的爪哇犀牛,拿著一個“正在建設”的告示牌,背景是建築工地。
文字渲染拼寫

影像文字提示的一部分實際上是 DALL-E2 中的 "UNDER CONSTRUCTIONS"(2023 年 9 月提示),但在大多數情況下顯示為亂碼(不遵循任何已知的英語單詞),至少對於英語母語人士來說可能如此。然而,文字渲染隨著 IF-Deepfloyd、DALL-E3(截至 2024 年 3 月)和 FLUX 1.0(2024 年 9 月)等模型的出現而逐漸得到改進。

3 相對定位

圖片最初的提示是 黃色球體在左邊,紫色金字塔在右邊 但如你所見,相對定位完全錯誤,金字塔在左邊,球體在右邊。


隨著 FLUX 1.0 等更新 AI 模型的釋出,相對定位正在逐漸得到改進,這些模型能夠在大多數情況下生成具有正確相對定位的影像。

4 物體計數

最初,這幅 SDXL 影像的提示是 三隻兔子。(2023 年 12 月)。然而,可能是由於訓練資料集沒有指定圖片中出現的物體數量,人工智慧藝術生成在人工智慧藝術生成過程中可能經常會出現生成錯誤物體數量的問題。

5 一些設計模式

AI 模型可能擁有或可能沒有足夠的資料/元資料來訓練某些型別的服裝設計模式。


例如,提示是生成運動文胸的 之字形 設計,但不幸的是,AI 模型無法在大多數隨機生成的圖片中生成這種設計。

其他已知的罪魁禍首

(a) 人字形

(b) 狗牙紋

(c) 渦卷形

(d) 波斯花紋

請在此處檢視更多內容: 人工智慧藝術生成手冊/VACT/織物圖案

6 主體與其他主體/物體的互動

AI 模型無法生成許多日常行為,例如“用弩瞄準”、“測量腰圍”、“用剪刀剪布料”(2024 年 9 月)。目前,它還遠不完美。

7 文化翻譯丟失

在訓練期間,許多無形的文化/遺產在 AI 模型訓練期間被忽視(假設),因為它嚴重依賴於 CLIP 進行自動標記,但不幸的是,它更偏向於西方亞文化,忽略了許多非西方國家的亞文化。 例如,右邊的圖片應該生成一個穿著 巴德拉(北非舞蹈服)的女士,但它卻生成了一種蘿莉型別的連衣裙。


例如,它無法識別 

(i) 巴德拉服飾 來自北非地區

(ii) 卡巴雅服飾 來自東南亞

8 無法生成許多神話生物

許多人工智慧影像模型無法生成任何神話生物,例如
(i) 獨眼巨人(有時會生成這種型別的版權 獨眼巨人)。
(ii) 半人馬(它通常會以笨拙的方式生成騎馬的人)。
(iii) 飛馬(它會生成一匹沒有翅膀的白馬)。
(iv) 美杜莎(它會生成一個戴著王冠的中年白人女性,沒有著名的蛇發)。
(v) 九頭蛇(它會生成 名為九頭蛇的島鎮周圍環境)。
(vi) 冥府三頭犬(它會生成一隻只有一頭的德國牧羊犬的影像)。
(vii) 海怪(它會生成克蘇魯型別的怪物)。
(viii) 木乃伊(它會生成一箇中年埃及女性的影像)。
(ix) 鳳凰(它會生成 鳳凰城,亞利桑那州 的一個區域)。
(x) 斯芬克斯(它只是生成埃及獅身人面像的建築)。

但令人驚訝的是,一些神話生物(似乎在 SDXL 中得到了解決),例如 

牛頭人
霜巨人
阿努比斯

9 概念滲透

有一些概念非常強大,以至於它們“滲透”到其他主題中。 例如,這幅影像提示的意圖是 擬人化的犀牛正在修補 戴珍珠耳環的少女(但以人形出現) 的畫作 穿著西裝的擬人化犀牛用刷子修補戴珍珠耳環的少女的畫作。
有時,更改詞序可能會成功地提高影像符合你意圖的可能性: 在此處檢視更多示例

10 對代表性不足的主題的訓練資料有限

在繪畫的語境中,我們可能知道更受歡迎的畫作,例如 蒙娜麗莎神奈川衝浪裡,但我們可能不知道 "The Self Portrait of Mocker" 等畫作的名稱。 (除了 2000 年代後期網際網路上的 "古典藝術男子指點" 模因)。 .

例如,這幅影像的提示是 "由畫家約瑟夫·杜克魯創作的《自畫像嘲弄者》的油畫,畫作的主題正在與智慧手機通話",但生成的影像與原作完全不相似。 因此,“資料策展人”可能需要策展更多代表性不足的主題。 .

11 無法理解否定

到目前為止,許多人工智慧影像模型都無法理解 否定(表示不存在)。例如,在這幅影像中,提示是

女性超級明星模特沒有鬍子

然而,提示無法理解否定,仍然生成一個長著鬍子的女性。

12 抽象組合

在本例中,將現實世界中很少見到的概念組合在一起(比如企鵝和竹子)可能在訓練資料中沒有得到很好的體現,導致模型可能難以準確地生成它們。


此示例中的提示是 

Tux(Linux 吉祥物)是用竹子做成的。

13 影像訓練資料集的多樣性

提示是 亞洲男性的庫存照片,帶有白人女性 雖然人工智慧藝術能夠生成非常逼真的看起來像人的影像,但它無法生成各種種族的人(例如,圖片無法生成白人女性,儘管提示中要求這樣做)。這可能是由於訓練的資料集缺乏這些特徵,或者文字編碼器還沒有功能完善。

請檢視此新聞連結以獲取更詳細的見解。 https://www.theverge.com/2024/4/3/24120029/instagram-meta-ai-sticker-generator-asian-people-racism

14 語義理解

有時,人工智慧也很難理解英語的一些細微差別;語義。

例如,在這種情況下,spring指的是“水泉”,而不是“彈簧”,儘管在字面上來說是正確的。

15 潛在的宣傳工具

不懷好意的人可能會濫用人工智慧藝術生成技術,為自己的利益生成宣傳影像。 例如,這些影像是由必應影像建立者 (BIC) 在大過濾器清理之前生成的(大約 2023 年 9 月),當時必應影像建立者能夠生成這些提示的影像。

兩個 ISIS 恐怖分子正在阿富汗沙漠中插下 ISIS 旗幟,當時沒有任何阻礙。

訓練影像資料集問題

[編輯 | 編輯原始碼]

對於人工智慧藝術生成,從白皮書來看,每個人工智慧藝術生成系統都使用自己的資料集進行訓練。

例如:OpenAI 的 DALL-E 使用 Image-GPT 訓練,而 Stable Diffusion 使用 Common CrawlLaion-5B (但據信並非所有 50 億張圖片都參與了訓練)。據信 SDXL 使用 Laion-Aesthetic 訓練。 https://github.com/google-research-datasets/conceptual-12m


正如俗語所說,“垃圾進,垃圾出”,這意味著如果訓練影像(輸入)沒有經過適當的整理,輸出影像可能也會出現亂碼。這是一個鮮為人知的問題,但隨著時間的推移,人工智慧影像模型本身也得到了微調,生成的影像質量隨著時間的推移而不斷提高。但總的來說,許多侷限性是由於影像存在以下問題:

(i) 許多低解析度圖片 [小於 512*512 畫素,模糊(但並非為了美學目的)]

(ii) 與影像相關的錯誤/誤導性標題

(iii) 影像標題不完整

(iv) 影像資料庫嚴重偏向於影像中的西方語境

(v) 缺少某些影像/主題


為了解決許多侷限性,需要更多整理(但成本高昂)來整理輸入影像,至少要達到 Open-AI Dall-E 的標準(至少在 2022 年版本中)

華夏公益教科書