AI 藝術生成手冊/AI 如何生成藝術？

人工智慧的興起導致了 AI 生成影像的建立和增強激增（尤其是在 2022 年，DALL-E2 釋出之後），產生了高度詳細和富有想象力的藝術作品。這種發展可能會促使使用者問：“AI 如何生成藝術？”

人類通常從周圍環境中汲取靈感——例如森林、城市景觀和他們自己的反思，並將這些靈感融入他們的藝術作品中。

類似地，AI 藝術涉及藉助生成式 AI 建立藝術作品。這項技術識別大型資料集中的模式，並利用這些知識來生成新內容。要建立 AI 藝術，需要一個 AI 藝術生成器，例如 Stable Diffusion，以及一個概念。AI 藝術家輸入一個詳細的提示，然後工具會根據提供的描述解釋該提示，以生成基於描述的影像選項。

藝術家 維拉·莫爾納，一位匈牙利藝術家，從 1968 年開始嘗試使用早期程式語言來製作隨機生成的藝術作品。她的幾何作品被認為是生成式藝術的先驅，被納入主要博物館收藏。她被認為是生成式藝術的先驅，她的幾何作品被納入主要博物館收藏。

這種能力背後的核心技術被稱為 神經網路。神經網路是一種複雜的數學系統或演算法，旨在模擬人腦中的生物神經網路，其功能是在廣泛的資料集中識別模式。

神經網路包含幾個元件：[3]

(i) 輸入層：此層接收初始輸入資料，例如影像、文字或數值。

(ii) 隱藏層：它們是輸入層和輸出層之間的中間層，大多數數學運算（例如矩陣乘法）都在這裡進行。

(iii) 輸出層：此層產生神經網路的最終輸出，即生成的輸出（例如影像或文字）。

(iv) 連線（權重和偏差）：相鄰層中的神經元透過權重連線，權重決定連線的強度。偏差是額外的引數，它們會改變神經元的啟用。

當用戶提示 AI 生成器描繪一隻狗時，神經網路會利用其經過訓練的大量資訊來建立新的影像。此過程涉及複雜互連節點層，模擬人腦處理資訊的方式。AI 藝術家的作用是對這些生成的影像進行細化，引導 AI 模型生成特定的場景，例如一隻狗模仿戴著貝雷帽的法國人，一隻狗坐在酒吧裡，或者一隻狗在廚房裡跳舞。這些神經網路充滿了經過訓練的資料，但正是使用者創造力和方向真正塑造了 AI 生成的藝術。

戴著貝雷帽的狗由 Di (they-them) 生成
坐在酒吧裡的狗由 Michal.palasek 生成
在廚房裡跳舞的狗由 Jan.strecha 生成

AI 藝術有 2 個主要部分：訓練和推理 [4]

訓練：訓練是訓練神經網路模型學習訓練資料中存在的模式和關係的過程。

推理：推理是使用訓練後的模型對新的、以前從未見過的資料進行預測或生成輸出的過程。

在人工智慧領域，訓練資料是生成式 AI 的核心。然而，正如諺語所說，質量勝於數量。總而言之，普遍共識是，影像美學質量和更好的影像描述/字幕遠勝於 AI 模型能夠處理的“令牌”。所有 AI 模型都是使用文字字幕-影像對進行訓練的，其中最流行的方法之一是使用 CLIP [5]。以下是已知的影像資料集訓練規模