人工智慧藝術生成手冊/人工智慧藝術生成的侷限性
截至目前,人工智慧藝術生成模型可能存在侷限性,包括最新的 FLUX 1.0-DEV。
我的侷限性標準是,如果人工智慧藝術無法在 75% 的時間內(4 張影像中的 3 張)生成。
| 否 | 影像 | 描述 |
|---|---|---|
| 1 | 人體解剖 人體解剖一直是人工智慧藝術生成的笑柄,大部分問題都集中在手/手指上。
(i) 該女性有 3 隻手。 (ii) 該女性有 2 個肚臍。 (iii) 該女性右手的指尖接觸到岩石,有 6 根手指。 (iv) 該女性右腿的腳後跟看起來變形了。
| |
| 2 | 文字渲染拼寫 影像文字提示的一部分實際上是 DALL-E2 中的 | |
| 3 |
|
相對定位 圖片最初的提示是
|
| 4 | 物體計數 最初,這幅 SDXL 影像的提示是 | |
| 5 | 一些設計模式 AI 模型可能擁有或可能沒有足夠的資料/元資料來訓練某些型別的服裝設計模式。
其他已知的罪魁禍首 (a) 人字形 (b) 狗牙紋 (c) 渦卷形 (d) 波斯花紋 請在此處檢視更多內容: 人工智慧藝術生成手冊/VACT/織物圖案 | |
| 6 | 主體與其他主體/物體的互動
AI 模型無法生成許多日常行為,例如“ | |
| 7 |
|
文化翻譯丟失 在訓練期間,許多無形的文化/遺產在 AI 模型訓練期間被忽視(假設),因為它嚴重依賴於 CLIP 進行自動標記,但不幸的是,它更偏向於西方亞文化,忽略了許多非西方國家的亞文化。 例如,右邊的圖片應該生成一個穿著 巴德拉(北非舞蹈服)的女士,但它卻生成了一種蘿莉型別的連衣裙。
例如,它無法識別 (i) 巴德拉服飾 來自北非地區 (ii) 卡巴雅服飾 來自東南亞 |
| 8 | 無法生成許多神話生物 許多人工智慧影像模型無法生成任何神話生物,例如 但令人驚訝的是,一些神話生物(似乎在 SDXL 中得到了解決),例如 牛頭人 | |
| 9 | 概念滲透 有一些概念非常強大,以至於它們“滲透”到其他主題中。
例如,這幅影像提示的意圖是 擬人化的犀牛正在修補 戴珍珠耳環的少女(但以人形出現) 的畫作。
| |
| 10 | 對代表性不足的主題的訓練資料有限
在繪畫的語境中,我們可能知道更受歡迎的畫作,例如 蒙娜麗莎 或 神奈川衝浪裡,但我們可能不知道 "The Self Portrait of Mocker" 等畫作的名稱。 (除了 2000 年代後期網際網路上的 "古典藝術男子指點" 模因)。 . 例如,這幅影像的提示是 | |
| 11 | 無法理解否定
到目前為止,許多人工智慧影像模型都無法理解 否定(表示不存在)。例如,在這幅影像中,提示是
然而,提示無法理解否定,仍然生成一個長著鬍子的女性。 | |
| 12 | 抽象組合
在本例中,將現實世界中很少見到的概念組合在一起(比如企鵝和竹子)可能在訓練資料中沒有得到很好的體現,導致模型可能難以準確地生成它們。
| |
| 13 | 影像訓練資料集的多樣性
提示是 請檢視此新聞連結以獲取更詳細的見解。 https://www.theverge.com/2024/4/3/24120029/instagram-meta-ai-sticker-generator-asian-people-racism | |
| 14 | 語義理解
有時,人工智慧也很難理解英語的一些細微差別;語義。 例如,在這種情況下,spring指的是“水泉”,而不是“彈簧”,儘管在字面上來說是正確的。 | |
| 15 | 潛在的宣傳工具 不懷好意的人可能會濫用人工智慧藝術生成技術,為自己的利益生成宣傳影像。 例如,這些影像是由必應影像建立者 (BIC) 在大過濾器清理之前生成的(大約 2023 年 9 月),當時必應影像建立者能夠生成這些提示的影像。
|
對於人工智慧藝術生成,從白皮書來看,每個人工智慧藝術生成系統都使用自己的資料集進行訓練。
例如:OpenAI 的 DALL-E 使用 Image-GPT 訓練,而 Stable Diffusion 使用 Common Crawl 和 Laion-5B (但據信並非所有 50 億張圖片都參與了訓練)。據信 SDXL 使用 Laion-Aesthetic 訓練。 https://github.com/google-research-datasets/conceptual-12m
正如俗語所說,“垃圾進,垃圾出”,這意味著如果訓練影像(輸入)沒有經過適當的整理,輸出影像可能也會出現亂碼。這是一個鮮為人知的問題,但隨著時間的推移,人工智慧影像模型本身也得到了微調,生成的影像質量隨著時間的推移而不斷提高。但總的來說,許多侷限性是由於影像存在以下問題:
(i) 許多低解析度圖片 [小於 512*512 畫素,模糊(但並非為了美學目的)]
(ii) 與影像相關的錯誤/誤導性標題
(iii) 影像標題不完整
(iv) 影像資料庫嚴重偏向於影像中的西方語境
(v) 缺少某些影像/主題
為了解決許多侷限性,需要更多整理(但成本高昂)來整理輸入影像,至少要達到 Open-AI Dall-E 的標準(至少在 2022 年版本中)


