AI 藝術生成手冊/AI 如何生成藝術?
人工智慧的興起導致了 AI 生成影像的建立和增強激增(尤其是在 2022 年,DALL-E2 釋出之後),產生了高度詳細和富有想象力的藝術作品。這種發展可能會促使使用者問:“AI 如何生成藝術?”
人類通常從周圍環境中汲取靈感——例如森林、城市景觀和他們自己的反思,並將這些靈感融入他們的藝術作品中。
類似地,AI 藝術涉及藉助生成式 AI 建立藝術作品。這項技術識別大型資料集中的模式,並利用這些知識來生成新內容。要建立 AI 藝術,需要一個 AI 藝術生成器,例如 Stable Diffusion,以及一個概念。AI 藝術家輸入一個詳細的提示,然後工具會根據提供的描述解釋該提示,以生成基於描述的影像選項。
藝術家 維拉·莫爾納,一位匈牙利藝術家,從 1968 年開始嘗試使用早期程式語言來製作隨機生成的藝術作品。她的幾何作品被認為是生成式藝術的先驅,被納入主要博物館收藏。她被認為是生成式藝術的先驅,她的幾何作品被納入主要博物館收藏。

這種能力背後的核心技術被稱為 神經網路。神經網路是一種複雜的數學系統或演算法,旨在模擬人腦中的生物神經網路,其功能是在廣泛的資料集中識別模式。
神經網路包含幾個元件:[3]
(i) 輸入層:此層接收初始輸入資料,例如影像、文字或數值。
(ii) 隱藏層:它們是輸入層和輸出層之間的中間層,大多數數學運算(例如矩陣乘法)都在這裡進行。
(iii) 輸出層:此層產生神經網路的最終輸出,即生成的輸出(例如影像或文字)。
(iv) 連線(權重和偏差):相鄰層中的神經元透過權重連線,權重決定連線的強度。偏差是額外的引數,它們會改變神經元的啟用。
當用戶提示 AI 生成器描繪一隻狗時,神經網路會利用其經過訓練的大量資訊來建立新的影像。此過程涉及複雜互連節點層,模擬人腦處理資訊的方式。AI 藝術家的作用是對這些生成的影像進行細化,引導 AI 模型生成特定的場景,例如一隻狗模仿戴著貝雷帽的法國人,一隻狗坐在酒吧裡,或者一隻狗在廚房裡跳舞。這些神經網路充滿了經過訓練的資料,但正是使用者創造力和方向真正塑造了 AI 生成的藝術。
-
戴著貝雷帽的狗由 Di (they-them) 生成
-
坐在酒吧裡的狗由 Michal.palasek 生成
-
在廚房裡跳舞的狗由 Jan.strecha 生成
AI 藝術有 2 個主要部分:訓練和推理 [4]
訓練:訓練是訓練神經網路模型學習訓練資料中存在的模式和關係的過程。
推理:推理是使用訓練後的模型對新的、以前從未見過的資料進行預測或生成輸出的過程。
在人工智慧領域,訓練資料是生成式 AI 的核心。然而,正如諺語所說,質量勝於數量。總而言之,普遍共識是,影像美學質量和更好的影像描述/字幕遠勝於 AI 模型能夠處理的“令牌”。所有 AI 模型都是使用文字字幕-影像對進行訓練的,其中最流行的方法之一是使用 CLIP [5]。以下是已知的影像資料集訓練規模

| 實體 | 影像資料集訓練規模 |
|---|---|
| Midjourney | ~1B+ [a] |
| DALL-E2 | 250M [b] |
| Craiyon | 15M [c] |
| Google Imagen | 860M [d] |
| Stable Diffusion 1.5 | 400M [e] |
| Stable Diffusion XL (SDXL) | 1.8M+1.2M [f] |
圖片展示了 AI 文字轉影像過度簡化的過程流程圖,從單詞轉換到影像,直到生成影像。
(A) 以單詞形式輸入的提示文字透過 文字編碼器 被“標記化”成標記。
(B) 然後將標記對映到密集的向量表示(嵌入向量),捕獲標記的語義和上下文資訊。
(C) 擴散模型 基於嵌入向量使用前向擴散技術生成影像。
(D) 密集的向量表示(潛在向量)代表潛在的影像表示,是生成影像的必要視覺特徵、內容和屬性,壓縮成潛在空間表示。
(D) 影像解碼器根據潛在向量中編碼的資訊合成視覺特徵,例如紋理、顏色、形狀等。合成影像後,它會對影像進行上取樣,同時執行增強,以提高影像美觀度。
[1] https://builtin.com/artificial-intelligence/how-does-AI-generated-art-work
[2] https://www.adobe.com/products/firefly/discover/what-is-ai-art.html
[3] https://www.youtube.com/playlist?list=PLZHQObOWTQDNU6R1_67000Dx_ZCJB-3pi
[4]https://blogs.nvidia.com/blog/difference-deep-learning-training-inference-ai/
[5] https://arxiv.org/abs/2204.06125
[6] https://www.youtube.com/watch?v=9YrYDqhJdPw
[a] https://www.theregister.com/2022/08/01/david_holz_midjourney/
[b] https://cdn.openai.com/papers/dall-e-2.pdf
[c] https://arxiv.org/pdf/2208.09333
[d] https://arxiv.org/pdf/2205.11487
[e] https://arxiv.org/pdf/2112.10752
[f] https://clarifai.com/stability-ai/stable-diffusion-2/models/stable-diffusion-xl