人工智慧藝術應用與改進手冊

本人工智慧藝術應用與改進手冊旨在幫助人們使用人工智慧藝術生成器為公共領域建立免費的實用媒體，重點是針對所有技能水平的人，在實踐中完成工作。它介紹了顯著的潛在應用和現有應用，併為讀者提供有關如何最好地實施這些特定應用的資訊。

啟動

您可以透過多種方式使用這些工具。主要方法包括

如果您有一塊好的顯示卡，可以將 Stable Diffusion 安裝到本地。是否這樣做取決於您的硬體和需求。如果您這樣做，AUTOMATIC1111 WebUI可能是最先進的軟體，但其他軟體也列在這裡，並且也有優勢。
您可以使用 playgroundai.com 這樣的網路平臺線上使用它（在許多網站上可以免費使用）
您可以為藝術軟體使用擴充套件，例如用於 Krita 的擴充套件或用於 Photoshop 的擴充套件

提示詞

哪些提示詞效果最好取決於人工智慧生成器。 Promptomania 提示詞生成器是一個開始使用提示詞和學習不同藝術風格的備忘單的好地方。它缺少很多風格，但可能會隨著時間的推移變得更加完整，並且足夠用於學習目的。許多網站，如 openart.ai 和 playgroundai.com，允許您檢視許多其他可過濾/可搜尋的影像以及它們的提示詞，您可以利用這些提示詞來學習和構建。

這裡是一個更全面的資源，這裡是 Stable Diffusion 的資源列表。您可以使用風格研究（精選的綜合研究：1 2 3 4）來了解更多有關您可以使用哪些風格以及如何將多種風格結合起來的資訊。但是，使用哪種風格並不難，也不必學習，您只需在提示詞中新增諸如“漫畫風格”、“3D 渲染”、“啞光畫”之類的短語即可。當網站提供預製的風格時，他們通常只是在提示詞的末尾新增幾個術語。

錯誤生成和建立改進版本

正如您在下面看到的，這些影像仍然存在一些問題。那些擁有更優秀人工智慧藝術技能的人可能能夠生成更好的影像。通常，人們可能需要進行一些細微的手動編輯。

此外，隨著時間的推移，這些影像可以由上傳者或其他人進行改進，例如使用以下工具：

Clipdrop 清理工具
修復繪畫（需要一些技能）
人工智慧藝術網路平臺的 [# 面部修復]
超解析度功能
在 GIMP 或 Photoshop 等影像編輯器中手動編輯影像
使用相同或相似的提示詞重新建立影像（示例）
人工智慧文字去除工具（示例）
…

如果您能改進現有影像或您之前上傳到維基共享資源的影像，請將其上傳為新版本，而不是作為單獨的新檔案上傳。如果影像中包含文字，可以使用上述方法將其刪除。但是，為了防止文字出現在影像的任何位置，最好使用負面提示詞，儘管這可能存在問題，例如，當您想要生成一個街道場景，並且商店文字在背景中可見時。這是一個在生成人工智慧藝術時需要學習的特定技能的良好例子：建立適合影像的文字。

您需要不斷調整提示詞，直到獲得良好的結果，有時，在某些情況下，最好從同一個提示詞生成一個新影像，而不是調整提示詞（確保種子設定為隨機，而不是始終相同，除非您希望影像看起來像剛剛生成的影像）。

您還可以透過 img2img 從剛剛生成的影像中生成一個新影像，然後將其作為圖層放在 GIMP 中新生成的影像下方。然後，剪下上層，以便在您想要顯示的地方顯示前者（示例）。

負面提示詞

如果您在生成的影像中看到您不希望出現的內容，或者預計人工智慧生成器可能會新增這些內容，或者以某種方式誤解您的提示詞，請將這些內容作為負面提示詞新增。

生成以下內容時，一些有用的負面提示詞示例：

人類：多餘的手指（待辦事項）
房間：相框，框架

當您在生成時出現不需要的東西時，新增更多術語以將其從接下來的影像中排除。您還可以使用 img2img 中的結果，並嘗試刪除不需要的部分，例如，使用先前的提示詞，但在清理工具無法很好地刪除的情況下，還可以新增額外的負面提示詞。

引數

有些影像指定了它們的引數。大約 40 步的步數通常會產生最佳結果。將提示詞強度設定得太高，例如超過 10，會使獲得良好影像變得更加困難。

生成器之間的差異

Stable Diffusion 是開源的，因此建議使用它，並且本文重點關注它。但是，截至 2023 年，Midjourney 通常在許多情況下會生成更好的影像，而 DALL-E 可能在某些或許多情況下也是如此。例如，SD 和 DALL-E 之間的區別在於，在 SD 中，提示詞像由逗號分隔的標籤一樣表達，而不是完整的句子或類似內容。見這些頁面，以比較相同提示詞的不同軟體結果以及上面連結的風格研究。

人工智慧藝術可以派上用場的應用場景

古代的古生物藝術

AI 藝術可以用來創作逼真的場景，描繪過去可能的樣子，例如，以最高解析度呈現已滅絕的古代生物。為了保證準確性，需要具備相當的技能。對於此類影像，可以使用 img2img 技術。

基礎影像 1（參見 WMC 古生物藝術分類）
基礎影像 2
基礎影像 1

在第一個示例中，腿部的一部分被剪掉了，所以看起來生物正在穿過蕨類植物。

也可以使用像 DreamBoth 這樣的工具來訓練 AI，使其學習描繪古代生物（如恐龍物種）的一組影像甚至 3D 模型。

不要使用 Commons:Category:Inaccurate paleoart 中的影像作為基礎，並對任何你知道不準確的影像新增 Commons:Template:Factual accuracy。請注意，即使基礎影像被認為不準確，生成的影像也可能是不準確的，因此也需要該模板。要能夠生成或將基礎影像轉換為逼真的古生物藝術，可能需要良好的古生物學知識和 AI 生成技能。

目前大多數可用的古生物藝術只描繪了已滅絕的生物（例如恐龍），但沒有將其放在一個理論上與它同時存在的動植物環境中。那些確實這樣做的影像通常解析度很低。一個例外是這張影像，它展示了這樣的場景可能是什麼樣子。

古代和遠古人類在洞穴中生活，或者沒有文明化的生活方式，這種狀態持續了數十萬年。儘管如此，在公共領域中，沒有甚至一張高解析度影像來描繪大多數人類存在期間的日常生活可能或被認為是什麼樣子，或者可能是什麼樣子，至少在 WMC 上沒有。這種情況從 20 世紀 20 年代先進的 AI 影像生成器出現後開始改變，下面的兩張影像是在 Commons:Category:Ancient and archaic humans in art 中的三張影像中的兩張，其中不包括簡單的面部重建。

基礎影像 1

可能需要良好的人類學知識才能創作出不明顯不準確且可能逼真的描繪影像。例如，一個主要的缺陷是，AI 藝術生成器可能會生成在史前人類和古代人類的深遠過去中不可能或極不可能出現的髮型。另見 WMC 上的“不準確的古生物藝術”。群體審查系統和實踐可能會發展起來，提供反饋，以便 AI 藝術工程師可以根據最佳的可用科學知識修改其影像。未來的發展可能會使古生物學資料和工具與古生物藝術技術結合 AI 藝術軟體，從而生成更準確和更有用的影像。目前，如果你沒有良好的人類學知識，嘗試與有這方面知識的人合作，然後再將你的影像釋出到公共領域供他人使用。

漫畫和公眾人物

在 20 世紀 20 年代，由於 Stable Diffusion 等 AI 藝術生成器的出現，使用公眾人物創作藝術作品變得更加容易。

這

使漫畫和政治藝術的創作民主化
導致了網路虛假資訊的問題
使使用已知人物（包括虛構人物）的幽默藝術成為可能（主要例子：“哈利·斯波特”）

它對某些特定公眾人物非常有效，無需任何額外訓練。其中一些人以逼真方式易於生成而聞名，例如弗拉基米爾·普京。

一個示例用例是生成一個人的肖像，以及與該人相關聯的背景，例如為科學家描繪科學理論的藝術，或為藝術家描繪的藝術風格，例如文森特·梵高的影像暗示著這一點。

同時，在特定環境中使用特定人物可能是一個問題，例如，生成器會多次生成該人，而不是隻生成一次，或者還會使該人出現在相框中。這種情況可能會隨著未來生成器的出現而改變，在未來生成器中，你可以例如指定該人所在的位置或出現的頻率。在建立提示時要牢記這一點；除了負面提示之外，還有很多方法可以解決此類問題，例如將生成的人剪掉並放置到影像中。

其他人需要使用 DreamBooth 等工具和技術進行微調，下面的第一張圖是使用 Stable Diffusion/Imagine 製作的，沒有任何額外訓練，第二張圖使用了 DreamBooth，第二張圖在吉米·威爾士的面部方面看起來更逼真。

幽默的社會和歷史批判藝術
DreamBooth 訓練後

目前尚不清楚為什麼某些名人使用現有模型在沒有額外訓練的情況下看起來不逼真，這種情況可能會隨著時間的推移而改變。

它還允許使用公眾人物建立影片。

這些能力觸犯了某些宗教人士的敏感神經，也讓政治精英擔心政治藝術的民主化。

它還使歷史公眾人物的藝術描繪民主化，這可以用於幽默影像、更高解析度的肖像、創新/創意組合，或用於歷史場景的逼真 AI 藝術。

在之前被刪除後，~第一個數字影像展示了藝術中的時代錯誤
拿破崙
蘭德爾斯漢姆森林 UFO 事件

它還可以用來創作描繪不常出現在高質量藝術作品中的人的藝術，例如特定的科學家，他們通常不是藝術和虛構作品的主題，例如“萬物理論”和“奧本海默”電影除外。

門捷列夫
亞里士多德

歷史場景

AI 藝術可以用來創作逼真的場景，描繪過去的樣子，無論是我們根據現有知識推測的樣子，還是故事中描繪的樣子。後者還可能包括過去虛構故事的影像，以更直觀的視覺方式展示人們對過去人物的想象。

當你想要以高解析度視覺化例如普通人經歷的普通日常生活，或者建立公共領域中第一個不存在於任何封閉空間中的歷史事件的影像時，是否仍然存在一些小錯誤可能並不重要。

使用像 DreamBoth 這樣的工具，可以根據歷史人物訓練 AI，使其學習一組影像。下面是一些示例，這些示例可能與費迪南德二世（費蘭迪諾·達拉戈納）在老年時的樣子略有不同，根據藝術繪畫來看，第一張圖片是這裡的藝術繪畫，第二張圖片是在他去世百年後繪製的。

AI 藝術生成器通常使人物看起來更好，所以正如你所看到的，它可能經常偏離人物的現有影像。但是，如果你提供更多訓練資料，或者 AI 生成器在訓練資料上訓練得很好（對於某些目前名人來說有時是這種情況），那麼人物可能看起來更逼真。

與其讓檔案專注於人物，不如將重點放在歷史事件或歷史場景上。例如，影像可以描繪中世紀一個村莊以高解析度逼真地呈現的樣子。

它還可以用來創作歷史人物在逼真或不逼真環境中的高解析度逼真影像。

正如剛才解釋的那樣，AI 生成器在生成面部和其他方面仍然存在問題。請記住這一點，因為糾正這些問題需要相當的技能，並且可能會限制影像的實用性或逼真度。

影像也可以完全專注於歷史事件，而沒有任何歷史人物，無論是逼真的還是不逼真的，出現在前景中。

教育遊戲

AI 藝術可以用來生成棋盤遊戲的影像，例如用於卡片。這些可以是教育遊戲或其他有用的遊戲。請注意，在這種情況下，你應該只生成影像，而不是完整的卡片，因為例如文字將是胡言亂語。

教育兒童讀物的風格

沒有免費媒體可用的物體和主題

例如，它可以顯示紙漿科幻漫畫是什麼樣子的，或者科幻子型別是關於什麼的，或者它的風格和主題是什麼。它可以說明某種風格或物體是什麼樣子的，以及其他事情，但這需要一個免責宣告，說明影像是由 AI 生成的。這種方法的一個用途是向人們展示目前缺少哪些媒體，但就概念而言，這些媒體將是有用的。

說明書籍內容

《發條女孩》書中世界的插畫
兒童讀物“第十三預言”
尤比克
尤比克（類似於某些封面，並描繪了書籍的主要主題，文字亂碼已修復）

對於最後一張圖片，使用上面列出的文字去除工具去除文字，然後使用GIMP新增文字。

樣式合併並採用

藝術意在描繪一個文明在現代科幻背景下采用古老的藝術風格
貝克辛斯基風格被採用並與其他風格合併，以a) 說明書籍內容，以及b) 將超現實破碎現實型別的菲利普·K·迪克式夢境世界描繪為超現實主義藝術的一個子型別

說明技術、理念和概念

尤其是在沒有其他或只有低質量影像可用於該概念的情況下非常有用

首次說明彗星上的人工製品/殖民地，在科技特徵的背景下
一項技術創新的插畫（也可以用來說明原型/模型）
神話生物被採用到現代科幻中，如同之前的研究中所做的那樣，AI 傀儡等待著任務
“科學幻想”和生態城的插畫，也是我首次繪製該型別的高畫質插畫
幾乎是首次繪製太陽朋克和可持續城市設計的插畫
當代後啟示錄藝術的高解析度插畫
機器人外星人的概念
賽博朋克型別的插畫，一個街景，沒有例如霓虹燈，而霓虹燈存在於大多數甚至所有類似的免費媒體中，描繪了該型別
另一個星球上崩潰的文明的概念（該生物是人類訪客，可以移除，或者是一個趨同進化的雙足外星人）
綠色城市城市規劃和太陽朋克插畫
首次線上圖書館/影子圖書館的藝術表現
烹飪機器人，並且略帶幽默，因此可能是烹飪機器人的最佳影像
相同，但不太現實，更粗糙；在許多維基百科文章中使用
首次說明使用計算機的具身或隱喻的AI
說明被隔離的具身或隱喻的AI，與人類以及人類科學+哲學互動
首次對吸血鬼德古拉的公共領域插畫，此前同一使用者的類似影像被刪除
幾乎是首次對後啟示錄藝術科幻型別的公共領域插畫
（相同）

娛樂和創造性思維

兒童創意遊戲和素描

鼓勵想象力的創意AI藝術兒童遊戲

孩子們可以畫畫，然後使用這些畫作作為img2img生成的影像輸入，描述影像想要表達的內容。孩子的描述然後用於新增到素描輸入的提示。這可能使孩子們能夠培養他們的創造力和想象力。

可能會有一個相應的應用程式，允許語音輸入，或者成年人可以幫助孩子們，孩子們先畫出草圖，然後成年人拍一張照片，詢問草圖想要表達的內容，以便AI藝術生成影像，孩子們可以完善這些影像，並將它們作為進一步影像、影像修改、反饋等的靈感來源。它降低了藝術參與所需的認知和技術最低技能水平，為孩子們提供了新穎的想象力遊戲方式，尤其適合兒童。

作為遊戲的一部分

除了更易於訪問的紙牌藝術設計和其他類似的應用之外，AI藝術生成本身也可以成為遊戲的一部分。這些遊戲純粹是為了娛樂，也可以提高AI藝術生成能力。

素描大戰

多名（例如兩名）玩家輪流透過更改提示或編寫新提示來生成AI藝術影像。起始玩家繪製一個場景、一個生物或類似的東西。第二名玩家嘗試生成一張影像，其中描繪的內容被顛倒或以另一種指定的方式改變，例如被摧毀或成功擊敗。玩家可以輪流進行，第一個成功完成指定意圖的影像獲勝該輪，或者第二個玩家可以嘗試多次，最好是在第一次嘗試中就成功生成影像。當提示僅更改而非完全替換時，這種方法效果最佳，這樣物體就相似了，也可以指定種子保持不變。

概念猜測

類似於猜詞遊戲“禁忌”，玩家必須創造一張影像，讓其他人能夠快速正確地猜出他們試圖描繪的概念。提示中不能使用多個指定的詞語。影像只有例如三次嘗試的機會，而概念並不像“樹”那樣簡單，而是相對難以視覺化。

已知問題和避免問題的當前狀態

有許多方法可以識別和解決或緩解已知問題。其中包括

對AI txt2txt影像生成軟體的更新
專門針對特定目的進行調整的模型，尤其是Stable Diffusion模型，因為該軟體是開源的；請參見Citivai Models
手動改進，透過在提示過程中或透過內繪、img2img和影像編輯軟體進行改進

模型經常會做出基本的概念性誤解，例如在提示“核蘑菇雲”時將真菌與核蘑菇雲混為一談。
將提示的物體放入畫框中，或交換影像的內容。
多次建立同一個人。
扭曲的手，重複的肢體，不真實的裝置螢幕。

這些問題是否會持續存在，以及哪些問題會持續存在，目前尚不清楚，也尚未進行徹底調查。在某個時候，可能可以使用維基資料項來代替詞語。例如，有人正在研究從少量影像中學習使用者提供的概念（例如物體或風格），以便透過新關聯的詞語來包含這些概念（例如物體或風格）。

另請參見

AI 藝術生成手冊