跳轉到內容

AI 藝術生成手冊/AI 如何生成藝術?

來自華夏公益教科書

人工智慧的興起導致了 AI 生成影像的建立和增強激增(尤其是在 2022 年,DALL-E2 釋出之後),產生了高度詳細和富有想象力的藝術作品。這種發展可能會促使使用者問:“AI 如何生成藝術?”

人類通常從周圍環境中汲取靈感——例如森林、城市景觀和他們自己的反思,並將這些靈感融入他們的藝術作品中。

類似地,AI 藝術涉及藉助生成式 AI 建立藝術作品。這項技術識別大型資料集中的模式,並利用這些知識來生成新內容。要建立 AI 藝術,需要一個 AI 藝術生成器,例如 Stable Diffusion,以及一個概念。AI 藝術家輸入一個詳細的提示,然後工具會根據提供的描述解釋該提示,以生成基於描述的影像選項。

藝術家 維拉·莫爾納,一位匈牙利藝術家,從 1968 年開始嘗試使用早期程式語言來製作隨機生成的藝術作品。她的幾何作品被認為是生成式藝術的先驅,被納入主要博物館收藏。她被認為是生成式藝術的先驅,她的幾何作品被納入主要博物館收藏。

這種能力背後的核心技術被稱為 神經網路。神經網路是一種複雜的數學系統或演算法,旨在模擬人腦中的生物神經網路,其功能是在廣泛的資料集中識別模式。

神經網路包含幾個元件:[3]

(i) 輸入層:此層接收初始輸入資料,例如影像、文字或數值。

(ii) 隱藏層:它們是輸入層和輸出層之間的中間層,大多數數學運算(例如矩陣乘法)都在這裡進行。

(iii) 輸出層:此層產生神經網路的最終輸出,即生成的輸出(例如影像或文字)。

(iv) 連線(權重和偏差):相鄰層中的神經元透過權重連線,權重決定連線的強度。偏差是額外的引數,它們會改變神經元的啟用。

當用戶提示 AI 生成器描繪一隻狗時,神經網路會利用其經過訓練的大量資訊來建立新的影像。此過程涉及複雜互連節點層,模擬人腦處理資訊的方式。AI 藝術家的作用是對這些生成的影像進行細化,引導 AI 模型生成特定的場景,例如一隻狗模仿戴著貝雷帽的法國人,一隻狗坐在酒吧裡,或者一隻狗在廚房裡跳舞。這些神經網路充滿了經過訓練的資料,但正是使用者創造力和方向真正塑造了 AI 生成的藝術。


AI 藝術有 2 個主要部分:訓練和推理 [4]

訓練:訓練是訓練神經網路模型學習訓練資料中存在的模式和關係的過程。

推理:推理是使用訓練後的模型對新的、以前從未見過的資料進行預測或生成輸出的過程。

在人工智慧領域,訓練資料是生成式 AI 的核心。然而,正如諺語所說,質量勝於數量。總而言之,普遍共識是,影像美學質量和更好的影像描述/字幕遠勝於 AI 模型能夠處理的“令牌”。所有 AI 模型都是使用文字字幕-影像對進行訓練的,其中最流行的方法之一是使用 CLIP [5]。以下是已知的影像資料集訓練規模

實體 影像資料集訓練規模
Midjourney ~1B+ [a]
DALL-E2 250M [b]
Craiyon 15M [c]
Google Imagen 860M [d]
Stable Diffusion 1.5 400M [e]
Stable Diffusion XL (SDXL) 1.8M+1.2M [f]

圖片展示了 AI 文字轉影像過度簡化的過程流程圖,從單詞轉換到影像,直到生成影像。


(A) 以單詞形式輸入的提示文字透過 文字編碼器 被“標記化”成標記。

(B) 然後將標記對映到密集的向量表示(嵌入向量),捕獲標記的語義和上下文資訊。

(C) 擴散模型 基於嵌入向量使用前向擴散技術生成影像。

(D) 密集的向量表示(潛在向量)代表潛在的影像表示,是生成影像的必要視覺特徵、內容和屬性,壓縮成潛在空間表示。

(D) 影像解碼器根據潛在向量中編碼的資訊合成視覺特徵,例如紋理、顏色、形狀等。合成影像後,它會對影像進行上取樣,同時執行增強,以提高影像美觀度。

參考資料

[編輯 | 編輯原始碼]

[1] https://builtin.com/artificial-intelligence/how-does-AI-generated-art-work

[2] https://www.adobe.com/products/firefly/discover/what-is-ai-art.html

[3] https://www.youtube.com/playlist?list=PLZHQObOWTQDNU6R1_67000Dx_ZCJB-3pi

[4]https://blogs.nvidia.com/blog/difference-deep-learning-training-inference-ai/

[5] https://arxiv.org/abs/2204.06125

[6] https://www.youtube.com/watch?v=9YrYDqhJdPw

[a] https://www.theregister.com/2022/08/01/david_holz_midjourney/

[b] https://cdn.openai.com/papers/dall-e-2.pdf

[c] https://arxiv.org/pdf/2208.09333

[d] https://arxiv.org/pdf/2205.11487

[e] https://arxiv.org/pdf/2112.10752

[f] https://clarifai.com/stability-ai/stable-diffusion-2/models/stable-diffusion-xl

華夏公益教科書