AI 藝術生成手冊/訓練
訓練是一種向模型引入概念的方法,使模型能夠“學習”引入的新概念。目前有幾種已建立的訓練方法
(a) Dreambooth
Dreambooth 是一種在特定主題上訓練模型的方法,同時保持其原始特徵不變。類別影像有助於保留來自基礎模型的資訊。輸出是一個新的模型。 它最適合所有型別的用例概念(主題和風格),但缺點是大小。
(b) 微調
微調類似於 Dreambooth,但它修改了模型對訓練主題的瞭解。不需要類別影像,因為目標是覆蓋現有概念。輸出也是一個新模型。
它最適合所有型別的用例,用於特定利基概念的生成(例如:生成埃及/北歐神話生物),這些概念目前在當前的 Stable Diffusions 版本中無法獲得。缺點是,它可能會導致之前訓練權重的災難性“記憶丟失”,因為它會覆蓋現有概念。
(c) LoRA(低秩適應)
LoRA 訓練是 Dreambooth 的簡化版本,它使用更少的資源並生成更小的檔案。它使用一種名為“權重矩陣低秩近似”的技術。這種方法用於減少模型中的引數數量並提高其泛化能力。但是,它可能會為了這些優勢而犧牲一些質量。輸出是一個 Lora 模型(模型的迷你版本),可以與任何基礎模型一起使用。
它適合風格(尤其是動漫風格),但不適合現實人臉的主題。
LyCORIS - Lora 超越傳統
LyCORIS 是一種新的訓練方法,試圖找到更好的方法來使用更少的引數微調 Stable Diffusion 模型。它使用 Lora 模型,這些模型是 Stable Diffusion 模型的更小更簡單的版本,可以執行得更快並使用更少的記憶體。LyCORIS 嘗試使用不同的方法來改變 Lora 模型以適應不同的任務或領域,例如使用一種稱為 Hadamard 乘積的數學運算來將 Lora 模型與其他模型結合起來。
(d) 文字反轉(TI)
文字反轉訓練允許你將一個人/物體/風格訓練為一個獨立的標記,可以應用於任何模型(取決於 web-ui)。輸出是一個包含訓練標記的嵌入。
(e) 超網路
超網路是一種透過附加一個小網路來微調模型風格的方法。小網路修改了模型的交叉注意力模組,而主模型被凍結,因此它快速有效。這將有助於它訓練模型而不會改變其權重
目前,許多擴充套件在 Automatic1111 中執行不正常(由於依賴關係衝突/Gradio 錯誤/pyTorch 錯誤),因此最好使用替代應用程式,例如 Stable Tuner / Kohya-ss、Everydreamer 2 進行訓練。
經驗法則
如果你想訓練一個單一概念(例如,在一種面孔型別、一種汽車型別等上訓練),建議在 Lora 上訓練。否則,在 Dreambooth/微調上訓練
概念是你希望模型學習的關聯詞,只要你有足夠的訓練資料集就可以。
概念可以分為兩種型別:主題和風格。
(a) 主題是你希望模型識別或生成的 主要物件或實體,例如面孔、動物(例如:某些犬種)、汽車(例如:老式賽車)等。
(b) 風格是你希望模型應用或修改的視覺特徵或特性,例如顏色、紋理、形狀等(例如:某些藝術風格,例如葛飾北齋藝術、紙雕)。
沒有固定的限制,但經驗法則是:你訓練的概念越多,訓練所需的 GPU VRAM 使用量就越高,時間也越長。
由於觀察到模型在訓練過程中沒有增大,我們可以推斷,訓練時間越長,你越有可能在模型在訓練前已經瞭解的內容方面丟失一些質量。

在神經網路的概念中,“權重”是乘以神經網路中每個神經元的輸入的值。它們代表每個輸入對於神經元輸出的重要性。權重最初是隨機初始化的,然後在訓練期間更新以最小化預測輸出與實際輸出之間的誤差。 Stable Diffusion 中的權重是代表 AI 模型保留的內容的值。這些數字驅動著 Stable Diffusion 在製作圖片和遵循提示時進行選擇。它們決定模型如何將輸入影像或噪聲轉換為輸出影像。權重在訓練期間透過最小化生成影像與目標影像之間的誤差來學習。
由於模型在訓練過程中不會增大,因此訓練時間越長,模型在訓練前已經瞭解的內容方面的質量就會受到的損害就越大。在其他內容(正則化/類別資料)上進行訓練可以在一定程度上減少這種影響。
以下是模型訓練最重要的前提條件(無論你選擇哪種型別的訓練)
(a) 具有至少 10GB VRAM 及以上的 強大 GPU 的計算機系統。最好是 NVidia,因為許多訓練方法開箱即用地支援 CUDA
Stable Diffusion 訓練是 一項計算密集型任務,需要大量的記憶體來儲存和處理大量資料。VRAM 代表影片隨機存取記憶體,這是 GPU 用於儲存和訪問資料的記憶體。GPU 的 VRAM 越多,它可以一次儲存和處理的資料就越多,這可以加快訓練過程,並允許使用更大的模型和更高的解析度(例如:SD1.5 處理高達 512*512px - 4GB VRAM,而 SD2.1 處理高達 768*768px)。
(b) 高質量 影像作為資料集準備
要被視為高質量影像
(i) 參考任何庫存影像網站了解影像應該是什麼樣子(例如構成、照明、對比度等)
(ii) 最好是高解析度影像(推薦 512*512px,或最好是超過 768*768px)。如果影像需要壓縮到 512px*512px,則不會丟失太多細節。
(iii) 如果作為主題進行訓練,最好是主題應該是影像中的主要焦點。圖片中不應該有太多可能干擾訓練的其他主題。
(iv) 影像的多樣性。影像包含的主題應該儘可能多樣化(例如,在不同的照明條件、不同的地點、不同的姿勢、不同的表情...下拍攝)
模型訓練的工作流程通常基於以下內容
注意:你可以點選以獲取更多資訊。
(i) 資料集(影像)準備

(ii) 文字標題影像

(iii) 訓練模型/監控訓練

(iv) 評估
參考文獻