AI 藝術生成手冊/擴散模型
注意 1:目前公共領域有許多型別的擴散模型,每個 AI 藝術 - 文字模型都有不同的實現方式。
(有些可能甚至比這裡介紹的更好/完全不同的實現方式。)
注意 2:本章專門介紹擴散模型如何為大眾工作的整體思路/通俗指南。
首先,為了訓練擴散模型,正向擴散模型將逐層新增噪聲。 .
在這個例子中,我們有一張岩石河床上犀牛的影像。從 T=0(原始影像)開始,正向擴散模型會為每一步(T)連續新增越來越多的噪聲,直到影像幾乎無法識別。儘管這看起來違反直覺,但整個過程將教會正向擴散模型如何從影像中去除噪聲,從而教導去噪擴散模型。
下一個過程是擴散去噪模型,它將從之前的正向擴散模型中學習如何從影像中去除噪聲。
擴散去噪模型將嘗試從輸入影像中去除一個“步驟”的噪聲,並一遍又一遍地重複這個過程,直到它最終能夠在 T=0(原始影像)處重建影像。
但是,這個過程幾乎永遠無法建立原始影像的精確副本,並且會在輸出中引入一些偏差。
根據維基詞典,在這個語境中,“潛在”是指潛伏或隱藏,直到條件適合發展。
因此,在這個模型上下文中,潛在擴散模型意味著,模型不是直接對整體影像應用擴散過程,而是將輸入投影到一個壓縮的影像表示/潛在空間(而不是完整的影像),然後對該空間應用擴散模型來重建影像。

潛在空間可以用左側的圖片來視覺化。 (為了便於理解,可以用 3D 散點圖來表示)
例如,我們可能需要對動物進行分類,例如爪哇犀牛。
對於爪哇犀牛,有許多型別的分類,例如動物的角、灰色的皮膚、瀕危動物等等。
為了提高效率和節省空間,潛在空間只關心爪哇犀牛的最重要的、最容易區分的特徵(例如,生活在爪哇雨林中,只有一角動物)。潛在空間還關注壓縮影像表示與其他特徵重疊的可能性。
因此,爪哇犀牛的區分特徵在潛在空間的表示中被聚類。
結果是,椅子的表示變得不那麼清晰,更相似。如果想象它們在潛在空間中的表示,爪哇犀牛資料集會“更靠近”在一起。
https://web.archive.org/web/20221129071811/https://www.louisbouchard.ai/latent-diffusion-models/
https://towardsdatascience.com/understanding-latent-space-in-machine-learning-de5a7c687d8d