跳到內容

AI 藝術生成手冊/擴散模型

來自華夏公益教科書,開放的書籍,開放的世界

注意 1:目前公共領域有許多型別的擴散模型,每個 AI 藝術 - 文字模型都有不同的實現方式。

(有些可能甚至比這裡介紹的更好/完全不同的實現方式。)

注意 2:本章專門介紹擴散模型如何為大眾工作的整體思路/通俗指南。

正向擴散模型

[編輯 | 編輯原始碼]

首先,為了訓練擴散模型,正向擴散模型將逐層新增噪聲。 .

在這個例子中,我們有一張岩石河床上犀牛的影像。從 T=0(原始影像)開始,正向擴散模型會為每一步(T)連續新增越來越多的噪聲,直到影像幾乎無法識別。儘管這看起來違反直覺,但整個過程將教會正向擴散模型如何從影像中去除噪聲,從而教導去噪擴散模型。

Example of Forward Diffusion Models

擴散去噪模型

[編輯 | 編輯原始碼]

下一個過程是擴散去噪模型,它將從之前的正向擴散模型中學習如何從影像中去除噪聲。

擴散去噪模型將嘗試從輸入影像中去除一個“步驟”的噪聲,並一遍又一遍地重複這個過程,直到它最終能夠在 T=0(原始影像)處重建影像。

但是,這個過程幾乎永遠無法建立原始影像的精確副本,並且會在輸出中引入一些偏差。

潛在擴散模型

[編輯 | 編輯原始碼]

根據維基詞典,在這個語境中,“潛在”是指潛伏或隱藏,直到條件適合發展

因此,在這個模型上下文中,潛在擴散模型意味著,模型不是直接對整體影像應用擴散過程,而是將輸入投影到一個壓縮的影像表示/潛在空間(而不是完整的影像),然後對該空間應用擴散模型來重建影像。

4class3ddiscriminant

潛在空間可以用左側的圖片來視覺化。 (為了便於理解,可以用 3D 散點圖來表示)

例如,我們可能需要對動物進行分類,例如爪哇犀牛。

對於爪哇犀牛,有許多型別的分類,例如動物的角、灰色的皮膚、瀕危動物等等。

為了提高效率和節省空間,潛在空間只關心爪哇犀牛的最重要的、最容易區分的特徵(例如,生活在爪哇雨林中,只有一角動物)。潛在空間還關注壓縮影像表示與其他特徵重疊的可能性。

因此,爪哇犀牛的區分特徵在潛在空間的表示中被聚類。

結果是,椅子的表示變得不那麼清晰,更相似。如果想象它們在潛在空間中的表示,爪哇犀牛資料集會“更靠近”在一起。


參考文獻

[編輯 | 編輯原始碼]

https://web.archive.org/web/20221129071811/https://www.louisbouchard.ai/latent-diffusion-models/

https://towardsdatascience.com/what-are-stable-diffusion-models-and-why-are-they-a-step-forward-for-image-generation-aa1182801d46

https://web.archive.org/web/20221129072114/https://www.assemblyai.com/blog/diffusion-models-for-machine-learning-introduction/

https://medium.com/from-the-diaries-of-john-henry/denoising-diffusion-based-generative-modeling-5daadc1d8ce2

https://towardsdatascience.com/understanding-latent-space-in-machine-learning-de5a7c687d8d

華夏公益教科書