穩定擴散:教程、資源和工具

已發表: 2022-09-08
目錄
  • 資源與信息
    • 哪些圖像用於訓練穩定擴散模型?
    • 在哪裡可以找到穩定的擴散示例和提示?
    • 有官方的 Discord 服務器嗎?
  • 工具和軟件
    • 如何在 Windows/Linux 上運行穩定的擴散?
    • 如何在 Mac 上運行 Stable Diffusion?
    • 穩定擴散模型有多大?
  • 教程和指南
    • 穩定的擴散提示生成器
    • 終極初學者指南
    • 阿卡西記錄
    • 提示備忘單
    • 藝術風格和媒介
    • 視覺和藝術家風格

8 月 22 日,Stability.ai 創始人 Emad Mostaque 宣布發布 Stable Diffusion。 這種 AI 生成藝術模型具有優於 DALL·E 2 之類的功能,並且也可作為開源項目使用。 在它發布後的那幾周里,人們已經放棄了他們的努力和項目,以給予 Stable Diffusion 全部注意力。

當 OpenAI 宣布 DALL·E 2 時,我已經很興奮了,我也有幸獲得了搶先體驗。 但是在最近幾天玩弄了穩定擴散之後,我可以說 DALL·E 2 與穩定擴散帶來的效果相差甚遠。

而且它是開源的這一事實也使其更易於訪問。 在短短兩週內,像 Lexica 這樣的網站已經歸檔了超過 1000 萬張 AI 生成的圖像。 我也完全期望開發人員能夠穩步將 Stable Diffusion 與最流行的圖形設計工具(如 Figma、Sketch 等)集成。 在旅途中產生高質量藝術的能力是前所未有的。

喀拉拉村, 銳利的焦點, 廣角, ArtStation 上的趨勢, 傑作, Greg Rutkowski, Ross Tran, Fenghua Zhong, 辛烷值, 柔和渲染, 布面油畫, 多彩, 電影, 環境概念藝術
“喀拉拉村,清晰的焦點,廣角,藝術站的趨勢,傑作,由 greg rutkowski、ross tran、fenghua zhong、辛烷值、軟渲染、布面油畫、彩色、電影、環境概念藝術”

本文的目的是列出所有有趣且相關的教程、資源和工具,以幫助您快速掌握 Stable Diffusion。 我相信在接下來的幾個月裡,我們將看到大量專門從穩定擴散中挖掘出最大潛力的項目。 我會盡我所能保持這篇文章的更新。

  • 教程——本節主要關注諸如“如何使用穩定擴散?”之類的主題。 .
  • 資源——這部分的重點是諸如“什麼是穩定擴散?”之類的查詢。
  • 工具——本節基於可讓您使用穩定擴散的工具。

因此,事不宜遲——讓我們從基礎開始。


資源與信息

許多人對 Stable Diffusion 的第一個問題是該模型的發布許可以及生成的藝術是否可以免費用於個人和商業項目。

Stable Diffusion 使用的許可證是CreativeML Open RAIL-M ,可以在 Hugging Face 閱讀全文。 簡而言之, “開放負責任的 AI 許可證 (Open RAIL) 是旨在允許 AI 工件衍生品的免費和開放訪問、重用和下游分發的許可證,只要行為使用限制始終適用(包括衍生作品)。” .

此 BigScience 頁面上提供了有關此許可證的更詳細說明。

哪些圖像用於訓練穩定擴散模型?

人工智能建模是為特定目的創建和訓練機器學習算法的手段。 在這種情況下,根據用戶提示生成圖像的目的。

如果您對 Stable Diffusion 使用了哪些圖像感到好奇,Andy Baio 和 Simon Willison 對用於訓練 Stable Diffusion 模型的超過 1200 萬張圖像(總共 23 億張)進行了全面分析。

以下是一些關鍵要點:

  • 用於訓練穩定擴散的數據集是由 LAION 整理的。
  • 在他們採樣的 1200 萬張圖像中,總樣本量的 47% 來自 100 個域,Pinterest 產生了整個數據集的 8.5%。 其他主要來源包括 WordPress.com、Blogspot、Flickr、DeviantArt 和 Wikimedia。
  • Stable Diffusion 不限制從人名(無論是名人還是其他人)生成藝術的使用。

看看模型如何演變以及公司是否願意貢獻他們的媒體來幫助穩定擴散發展將會很有趣。

在哪裡可以找到穩定的擴散示例和提示?

Stable Diffusion 與 DALL·E 之類的不同之處之一是充分利用 Stable Diffusion; 你必須了解它的修飾符。 特別是,一種修飾符稱為種子。 每當你用 Stable Diffusion 生成圖像時,都會為該圖像分配一個種子,也可以理解為該圖像的一般構成。 因此,如果您喜歡特定圖像並希望復制其風格(或至少盡可能接近),您可以使用種子。

詞典

查找示例和用於生成這些圖像的提示的最佳平台是 Lexica,它存檔了超過 1000 萬件樣本藝術品。 每幅作品都包含完整的提示和種子編號,您可以自己重複使用。

有官方的 Discord 服務器嗎?

是的!

您可以通過訪問 [https://discord.gg/stablediffusion] 訪問它; 需要注意的是,服務器不再支持從服務器本身生成圖像。 此功能作為 Beta 計劃的一部分提供。 如果您想從 Discord 服務器使用 Stable Diffusion – 您可以查看 Yet Another SD Discord Bot 等項目,或訪問他們的 Discord 服務器進行試用。


工具和軟件

如果您已經看過或被使用穩定擴散創建的藝術迷住了,您可能想知道是否可以自己嘗試一下。 答案是肯定的,有多種免費試用 Stable Diffusion 的方法,包括在瀏覽器或您的機器上進行。

這樣做的官方方法是使用 DreamStudio 平台。

DreamStudio 示例

任何人都可以免費註冊,新賬戶免費獲得 200 個免費代幣。 只要您不增加複雜性並且不將高度和寬度更改為超過 512×512 默認設置,這些令牌就足夠了 200 代。 但是,如果您增加複雜性,您可能會很快用完您的代幣。

如何在 Windows/Linux 上運行穩定的擴散?

目前,在本地運行 Stable Diffusion 最流行的解決方案是 GitHub 上的 Stable Diffusion Web UI 存儲庫。 基於 Gradio GUI,這與 DreamStudio 界面非常接近,您可以告別任何限制。

穩定擴散的 PC 要求是什麼?

4GB(更多是首選)VRAM GPU(僅對 Nvidia 的官方支持!)
AMD 用戶在這裡查看

請記住使用 Web UI 存儲庫; 您需要自己從 Hugging Face 下載模型。 確保您完全閱讀安裝指南 (Windows) 以正確設置。 對於 Linux,請查看本指南。 您還可以在 Google Colab 上啟動並運行它 - 此處提供指南。

在 Windows 或 Linux 上運行 SD 是否有任何替代方案?

穩定的 Diffusion UI 越來越受歡迎(Windows 和 Linux 的一鍵安裝)。

如何在 Mac 上運行 Stable Diffusion?

Charlie Holtz 發布了 CHARL-E,這是一款適用於 Mac(M1 和 M2)用戶的一鍵式安裝程序。

使用 CHARL-E 一鍵在 Mac 上穩定擴散

特點:

  • 自動下載所有需要的權重。
  • 您可以設置種子數和 DDIM 採樣。
  • 生成的圖像保存在圖庫中。

還有 Diffusion Bee 可以考慮作為替代方案。

穩定擴散模型有多大?

正如我上面提到的,你必須下載穩定擴散模型,鏈接可以在這裡找到。 您需要在 Hugging Face 上創建一個帳戶,然後接受該模型的許可條款,然後才能查看和下載其文件。

擁抱面上的穩定擴散模型文件

人們的疑問之一是, “為什麼這個模型是由超過 20 億張圖像組成的,卻只有 4GB 大小?” .

這個問題的最佳答案來自 Hacker News 用戶 juliendorra ⟶

這是有趣的部分:所有生成的圖像都來自一個小於 4gb 的模型(神經網絡的訓練權重)。

所以在某種程度上,數千億張可能的圖像都存儲在模型中(每個都是多維潛在空間中的向量)並按需轉換為像素(由知道如何將單詞轉換為該空間中的向量的語言模型驅動) )

因為它是確定性的(給定完全相同的請求參數,包括隨機種子,您會得到完全相同的圖像),它也是一種壓縮形式(或至少是編碼解碼):我可以向您發送 100 萬張圖像的參數能夠在您身邊重新創建,就像一個相對較小的文本文件一樣。


教程和指南

以下部分完全致力於幫助您從穩定擴散提示中提取最多汁液的教程和指南。 正如我所說,隨著更多指南的可用以及對模型的更好理解,我將盡我所能保持更新。

穩定的擴散提示生成器

下面還有其他樣式指南,但就視覺構建提示而言——promptoMANIA 工具可能是最好的。

您可以從添加您嘗試創建的圖像的描述開始,然後您可以向下滾動以開始添加細節並模仿各種藝術家的風格。 有數百個選項可供選擇,每個選項都有一個視覺預覽。

完成構建字符串後,您可以復制它,然後將其粘貼到您用來生成穩定擴散圖像的任何工具中。

終極初學者指南

Arman Chaudhry 發表了關於 SD 基本要素的緊湊型 Google Docs 演示文稿。

本指南涵蓋了 SD 支持的所有修飾符,但還推薦了寬度/高度設置的最佳實踐以及要避免的常見錯誤。

阿卡西記錄

如果您想進行深入研究(或需要研究參考資料)——SD Akashic 記錄庫有大量資源供您學習。

您將找到從關鍵字使用到提示優化再到樣式指南的所有內容。 除了本文中已經提到的工具之外,還提到了幾種工具。

提示備忘單

如果您正在尋找將自定義樣式和效果應用到提示的靈感,請查看 Moritz 的這篇博文。 它涵蓋了對 2D 和 3D 藝術、細節、照明、顏色和環境等概念的快速添加。

藝術風格和媒介

查看此 Google Docs 文件,了解多達 100 多種不同的樣式和媒介,用於生成 SD 圖像。 該文檔基於單個提示,並且該提示已生成數百種不同的樣式,因此您可以在提示中復制相同的樣式。

視覺和藝術家風格

查看 GitHub 上的這個 modifiers.json 文件,了解更多樣式和藝術家推薦。 您可以將超過 200 種不同的修飾符應用於您的提示。