稳定扩散:教程、资源和工具

已发表: 2022-09-08
目录
  • 资源与信息
    • 哪些图像用于训练稳定扩散模型?
    • 在哪里可以找到稳定的扩散示例和提示?
    • 有官方的 Discord 服务器吗?
  • 工具和软件
    • 如何在 Windows/Linux 上运行稳定的扩散?
    • 如何在 Mac 上运行 Stable Diffusion?
    • 稳定扩散模型有多大?
  • 教程和指南
    • 稳定的扩散提示生成器
    • 终极初学者指南
    • 阿卡西记录
    • 提示备忘单
    • 艺术风格和媒介
    • 视觉和艺术家风格

8 月 22 日,Stability.ai 创始人 Emad Mostaque 宣布发布 Stable Diffusion。 这种 AI 生成艺术模型具有优于 DALL·E 2 之类的功能,并且也可作为开源项目使用。 在它发布后的那几周里,人们已经放弃了他们的努力和项目,以给予 Stable Diffusion 全部注意力。

当 OpenAI 宣布 DALL·E 2 时,我已经很兴奋了,我也有幸获得了抢先体验。 但是在最近几天玩弄了稳定扩散之后,我可以说 DALL·E 2 与稳定扩散带来的效果相差甚远。

而且它是开源的这一事实也使其更易于访问。 在短短两周内,像 Lexica 这样的网站已经归档了超过 1000 万张 AI 生成的图像。 我也完全期望开发人员能够稳步将 Stable Diffusion 与最流行的图形设计工具(如 Figma、Sketch 等)集成。 在旅途中产生高质量艺术的能力是前所未有的。

喀拉拉村, 锐利的焦点, 广角, ArtStation 上的趋势, 杰作, Greg Rutkowski, Ross Tran, Fenghua Zhong, 辛烷值, 柔和渲染, 布面油画, 多彩, 电影, 环境概念艺术
“喀拉拉村,清晰的焦点,广角,艺术站的趋势,杰作,由 greg rutkowski、ross tran、fenghua zhong、辛烷值、软渲染、布面油画、彩色、电影、环境概念艺术”

本文的目的是列出所有有趣且相关的教程、资源和工具,以帮助您快速掌握 Stable Diffusion。 我相信在接下来的几个月里,我们将看到大量专门从稳定扩散中挖掘出最大潜力的项目。 我会尽我所能保持这篇文章的更新。

  • 教程——本节主要关注诸如“如何使用稳定扩散?”之类的主题。 .
  • 资源——这部分的重点是诸如“什么是稳定扩散?”之类的查询。
  • 工具——本节基于可让您使用稳定扩散的工具。

因此,事不宜迟——让我们从基础开始。


资源与信息

许多人对 Stable Diffusion 的第一个问题是该模型的发布许可以及生成的艺术是否可以免费用于个人和商业项目。

Stable Diffusion 使用的许可证是CreativeML Open RAIL-M ,可以在 Hugging Face 阅读全文。 简而言之, “开放负责任的 AI 许可证 (Open RAIL) 是旨在允许 AI 工件衍生品的免费和开放访问、重用和下游分发的许可证,只要行为使用限制始终适用(包括衍生作品)。” .

此 BigScience 页面上提供了有关此许可证的更详细说明。

哪些图像用于训练稳定扩散模型?

人工智能建模是为特定目的创建和训练机器学习算法的手段。 在这种情况下,根据用户提示生成图像的目的。

如果您对 Stable Diffusion 使用了哪些图像感到好奇,Andy Baio 和 Simon Willison 对用于训练 Stable Diffusion 模型的超过 1200 万张图像(总共 23 亿张)进行了全面分析。

以下是一些关键要点:

  • 用于训练稳定扩散的数据集是由 LAION 整理的。
  • 在他们采样的 1200 万张图像中,总样本量的 47% 来自 100 个域,Pinterest 产生了整个数据集的 8.5%。 其他主要来源包括 WordPress.com、Blogspot、Flickr、DeviantArt 和 Wikimedia。
  • Stable Diffusion 不限制从人名(无论是名人还是其他人)生成艺术的使用。

看看模型如何演变以及公司是否愿意贡献他们的媒体来帮助稳定扩散发展将会很有趣。

在哪里可以找到稳定的扩散示例和提示?

Stable Diffusion 与 DALL·E 之类的不同之处之一是充分利用 Stable Diffusion; 你必须了解它的修饰符。 特别是,一种修饰符称为种子。 每当你用 Stable Diffusion 生成图像时,都会为该图像分配一个种子,也可以理解为该图像的一般构成。 因此,如果您喜欢特定图像并希望复制其风格(或至少尽可能接近),您可以使用种子。

词典

查找示例和用于生成这些图像的提示的最佳平台是 Lexica,它存档了超过 1000 万件样本艺术品。 每幅作品都包含完整的提示和种子编号,您可以自己重复使用。

有官方的 Discord 服务器吗?

是的!

您可以通过访问 [https://discord.gg/stablediffusion] 访问它; 需要注意的是,服务器不再支持从服务器本身生成图像。 此功能作为 Beta 计划的一部分提供。 如果您想从 Discord 服务器使用 Stable Diffusion – 您可以查看 Yet Another SD Discord Bot 等项目,或访问他们的 Discord 服务器进行试用。


工具和软件

如果您已经看过或被使用稳定扩散创建的艺术迷住了,您可能想知道是否可以自己尝试一下。 答案是肯定的,有多种免费试用 Stable Diffusion 的方法,包括在浏览器或您的机器上进行。

这样做的官方方法是使用 DreamStudio 平台。

DreamStudio 示例

任何人都可以免费注册,新账户免费获得 200 个免费代币。 只要您不增加复杂性并且不将高度和宽度更改为超过 512×512 默认设置,这些令牌就足够了 200 代。 但是,如果您增加复杂性,您可能会很快用完您的代币。

如何在 Windows/Linux 上运行稳定的扩散?

目前,在本地运行 Stable Diffusion 最流行的解决方案是 GitHub 上的 Stable Diffusion Web UI 存储库。 基于 Gradio GUI,这与 DreamStudio 界面非常接近,您可以告别任何限制。

稳定扩散的 PC 要求是什么?

4GB(更多是首选)VRAM GPU(仅对 Nvidia 的官方支持!)
AMD 用户在这里查看

请记住使用 Web UI 存储库; 您需要自己从 Hugging Face 下载模型。 确保您完全阅读安装指南 (Windows) 以正确设置。 对于 Linux,请查看本指南。 您还可以在 Google Colab 上启动并运行它 - 此处提供指南。

在 Windows 或 Linux 上运行 SD 是否有任何替代方案?

稳定的 Diffusion UI 越来越受欢迎(Windows 和 Linux 的一键安装)。

如何在 Mac 上运行 Stable Diffusion?

Charlie Holtz 发布了 CHARL-E,这是一款适用于 Mac(M1 和 M2)用户的一键式安装程序。

使用 CHARL-E 一键在 Mac 上稳定扩散

特点:

  • 自动下载所有需要的权重。
  • 您可以设置种子数和 DDIM 采样。
  • 生成的图像保存在图库中。

还有 Diffusion Bee 可以考虑作为替代方案。

稳定扩散模型有多大?

正如我上面提到的,你必须下载稳定扩散模型,链接可以在这里找到。 您需要在 Hugging Face 上创建一个帐户,然后接受该模型的许可条款,然后才能查看和下载其文件。

拥抱面上的稳定扩散模型文件

人们的疑问之一是, “为什么这个模型是由超过 20 亿张图像组成的,却只有 4GB 大小?” .

这个问题的最佳答案来自 Hacker News 用户 juliendorra ⟶

这是有趣的部分:所有生成的图像都来自一个小于 4gb 的模型(神经网络的训练权重)。

所以在某种程度上,数千亿张可能的图像都存储在模型中(每个都是多维潜在空间中的向量)并按需转换为像素(由知道如何将单词转换为该空间中的向量的语言模型驱动) )

因为它是确定性的(给定完全相同的请求参数,包括随机种子,您会得到完全相同的图像),它也是一种压缩形式(或至少是编码解码):我可以向您发送 100 万张图像的参数能够在您身边重新创建,就像一个相对较小的文本文件一样。


教程和指南

以下部分完全致力于帮助您从稳定扩散提示中提取最多汁液的教程和指南。 正如我所说,随着更多指南的可用以及对模型的更好理解,我将尽我所能保持更新。

稳定的扩散提示生成器

下面还有其他样式指南,但就视觉构建提示而言——promptoMANIA 工具可能是最好的。

您可以从添加您尝试创建的图像的描述开始,然后您可以向下滚动以开始添加细节并模仿各种艺术家的风格。 有数百个选项可供选择,每个选项都有一个视觉预览。

完成构建字符串后,您可以复制它,然后将其粘贴到您用来生成稳定扩散图像的任何工具中。

终极初学者指南

Arman Chaudhry 发表了关于 SD 基本要素的紧凑型 Google Docs 演示文稿。

本指南涵盖了 SD 支持的所有修饰符,但还推荐了宽度/高度设置的最佳实践以及要避免的常见错误。

阿卡西记录

如果您想进行深入研究(或需要研究参考资料)——SD Akashic 记录库有大量资源供您学习。

您将找到从关键字使用到提示优化再到样式指南的所有内容。 除了本文中已经提到的工具之外,还提到了几种工具。

提示备忘单

如果您正在寻找将自定义样式和效果应用到提示的灵感,请查看 Moritz 的这篇博文。 它涵盖了对 2D 和 3D 艺术、细节、照明、颜色和环境等概念的快速添加。

艺术风格和媒介

查看此 Google Docs 文件,了解多达 100 多种不同的样式和媒介,用于生成 SD 图像。 该文档基于单个提示,并且该提示已生成数百种不同的样式,因此您可以在提示中复制相同的样式。

视觉和艺术家风格

查看 GitHub 上的这个 modifiers.json 文件,了解更多样式和艺术家推荐。 您可以将超过 200 种不同的修饰符应用于您的提示。