AI 藝術生成手冊/擴散模型

注意 1：目前公共領域有許多型別的擴散模型，每個 AI 藝術 - 文字模型都有不同的實現方式。

(有些可能甚至比這裡介紹的更好/完全不同的實現方式。)

注意 2：本章專門介紹擴散模型如何為大眾工作的整體思路/通俗指南。

正向擴散模型

首先，為了訓練擴散模型，正向擴散模型將逐層新增噪聲。 .

在這個例子中，我們有一張岩石河床上犀牛的影像。從 T=0（原始影像）開始，正向擴散模型會為每一步（T）連續新增越來越多的噪聲，直到影像幾乎無法識別。儘管這看起來違反直覺，但整個過程將教會正向擴散模型如何從影像中去除噪聲，從而教導去噪擴散模型。

下一個過程是擴散去噪模型，它將從之前的正向擴散模型中學習如何從影像中去除噪聲。

擴散去噪模型將嘗試從輸入影像中去除一個“步驟”的噪聲，並一遍又一遍地重複這個過程，直到它最終能夠在 T=0（原始影像）處重建影像。

但是，這個過程幾乎永遠無法建立原始影像的精確副本，並且會在輸出中引入一些偏差。

根據維基詞典，在這個語境中，“潛在”是指潛伏或隱藏，直到條件適合發展。

因此，在這個模型上下文中，潛在擴散模型意味著，模型不是直接對整體影像應用擴散過程，而是將輸入投影到一個壓縮的影像表示/潛在空間（而不是完整的影像），然後對該空間應用擴散模型來重建影像。

潛在空間可以用左側的圖片來視覺化。 (為了便於理解，可以用 3D 散點圖來表示)

例如，我們可能需要對動物進行分類，例如爪哇犀牛。

對於爪哇犀牛，有許多型別的分類，例如動物的角、灰色的皮膚、瀕危動物等等。

為了提高效率和節省空間，潛在空間只關心爪哇犀牛的最重要的、最容易區分的特徵（例如，生活在爪哇雨林中，只有一角動物）。潛在空間還關注壓縮影像表示與其他特徵重疊的可能性。

因此，爪哇犀牛的區分特徵在潛在空間的表示中被聚類。

結果是，椅子的表示變得不那麼清晰，更相似。如果想象它們在潛在空間中的表示，爪哇犀牛資料集會“更靠近”在一起。