Стабильная диффузия: учебные пособия, ресурсы и инструменты

Опубликовано: 2022-09-08
Оглавление
  • Ресурсы и информация
    • Какие изображения использовались для обучения модели стабильной диффузии?
    • Где найти примеры и подсказки для стабильной диффузии?
    • Есть ли официальный сервер Discord?
  • Инструменты и программное обеспечение
    • Как запустить Stable Diffusion в Windows/Linux?
    • Как запустить Stable Diffusion на Mac?
    • Насколько велика модель стабильной диффузии?
  • Учебники и руководства
    • Конструктор стабильной диффузионной подсказки
    • Полное руководство для начинающих
    • Хроники Акаши
    • Быстрая шпаргалка
    • Художественные стили и средства
    • Визуальные и художественные стили

22 августа основатель Stability.ai Эмад Мостак объявил о выпуске Stable Diffusion. Эта модель генеративного искусства с искусственным интеллектом обладает превосходными возможностями по сравнению с DALL·E 2, а также доступна в виде проекта с открытым исходным кодом. За эти недели после его выпуска люди отказались от своих начинаний и проектов, чтобы полностью сосредоточиться на Stable Diffusion.

Я уже был очень взволнован, когда OpenAI анонсировала DALL·E 2, и мне также посчастливилось получить ранний доступ. Но, поигравшись со Stable Diffusion последние пару дней, я могу сказать, что DALL·E 2 и близко не приближается к тому, что предлагает Stable Diffusion.

И тот факт, что он с открытым исходным кодом, также делает его намного более доступным. Всего за две недели такие сайты, как Lexica, заархивировали более 10 миллионов изображений, созданных искусственным интеллектом. Я также полностью ожидаю, что разработчики будут прилагать устойчивые усилия для интеграции Stable Diffusion с наиболее популярными инструментами графического дизайна, такими как Figma, Sketch и другими. Возможность создавать высококачественные изображения на ходу беспрецедентна.

деревня Керала, резкий фокус, общий план, тренды на ArtStation, шедевр, Грег Рутковски, Росс Тран, Фенхуа Чжун, октан, мягкий рендеринг, холст, масло, красочный, кинематографический, концепт-арт с окружающей средой
«Деревня Керала, резкий фокус, общий план, тренды на artstation, шедевр, Грег Рутковски, Росс Тран, Фэнхуа Чжун, октан, мягкий рендеринг, масло на холсте, красочный, кинематографический, экологический концепт-арт»

Цель этой статьи — перечислить все интересные и актуальные руководства, ресурсы и инструменты, которые помогут вам быстро освоиться со Stable Diffusion. Я верю, что в ближайшие месяцы мы увидим массовый приток проектов, специализирующихся на извлечении максимального потенциала из Stable Diffusion. Я сделаю все возможное, чтобы эта статья обновлялась соответствующим образом.

  • Учебники — этот раздел в значительной степени сосредоточен на таких темах, как «Как использовать стабильную диффузию?» .
  • Ресурсы — этот раздел посвящен таким вопросам, как «Что такое стабильная диффузия?».
  • Инструменты — этот раздел основан на инструментах, позволяющих использовать стабильную диффузию.

Итак, без лишних слов – давайте начнем с основ.


Ресурсы и информация

Один из первых вопросов, который многие люди задают о Stable Diffusion, — это лицензия, под которой опубликована эта модель, и можно ли использовать сгенерированное искусство для личных и коммерческих проектов.

Stable Diffusion использует лицензию CreativeML Open RAIL-M , и ее можно полностью прочитать на Hugging Face. Короче говоря, «Открытые ответственные лицензии ИИ (Open RAIL) — это лицензии, предназначенные для обеспечения свободного и открытого доступа, повторного использования и дальнейшего распространения производных артефактов ИИ, если всегда применяются поведенческие ограничения на использование (включая производные работы)». .

Более подробное объяснение этой лицензии доступно на этой странице BigScience.

Какие изображения использовались для обучения модели стабильной диффузии?

Моделирование ИИ — это средство создания и обучения алгоритмов машинного обучения для определенной цели. В данном случае цель генерации изображений из подсказок пользователя.

Если вам интересно, какие изображения использовала Stable Diffusion, Энди Байо и Саймон Уиллисон провели тщательный анализ более 12 миллионов изображений (из общего числа 2,3 миллиарда), которые использовались для обучения модели Stable Diffusion.

Вот некоторые из основных выводов:

  • Наборы данных, которые использовались для обучения Stable Diffusion, были собраны LAION.
  • Из 12 миллионов изображений, которые они выбрали, 47% от общего размера выборки были получены из 100 доменов, а Pinterest предоставил 8,5% всего набора данных. Другие популярные источники включают WordPress.com, Blogspot, Flickr, DeviantArt и Wikimedia.
  • Стабильная диффузия не ограничивает использование изображений из имен людей (будь то знаменитости или кто-то другой).

Будет интересно посмотреть, как будет развиваться модель и захотят ли компании внести свой вклад в развитие Stable Diffusion.

Где найти примеры и подсказки для стабильной диффузии?

Одно из отличий стабильной диффузии от подобных DALL·E заключается в том, что она позволяет получить максимальную отдачу от стабильной диффузии; вы должны узнать о его модификаторах . В частности, один модификатор называется seed . Всякий раз, когда вы создаете изображение с помощью Stable Diffusion, этому изображению будет назначено начальное значение, которое также можно понимать как общую композицию этого изображения. Итак, если вам понравилось конкретное изображение и вы хотите воспроизвести его стиль (или, по крайней мере, как можно ближе), вы можете использовать семена.

Лексика

Лучшей платформой для поиска примеров и подсказок, используемых для создания этих изображений, является Lexica, в которой хранится более 10 миллионов образцов произведений искусства. Каждое произведение включает полную подсказку и начальный номер, который вы можете использовать самостоятельно.

Есть ли официальный сервер Discord?

Да!

Вы можете получить к нему доступ, посетив [https://discord.gg/stablediffusion]; важно отметить, что сервер больше не поддерживает создание изображений с самого сервера. Эта функция была доступна в рамках бета-программы. Если вы хотите использовать Stable Diffusion с сервера Discord, вы можете изучить такие проекты, как Yet Another SD Discord Bot, или посетить их сервер Discord, чтобы попробовать его.


Инструменты и программное обеспечение

Если вы видели или были очарованы искусством, созданным с помощью Stable Diffusion, вам может быть интересно, можете ли вы попробовать это сами. И да, и есть несколько способов бесплатно попробовать Stable Diffusion, в том числе сделать это из браузера или с вашего компьютера.

Официальный способ сделать это — использовать платформу DreamStudio.

Пример DreamStudio

Любой может зарегистрироваться бесплатно, а новые аккаунты получают 200 бесплатных токенов. Этих токенов достаточно для 200 поколений, если вы не увеличиваете сложность и не изменяете высоту и ширину за пределы настройки по умолчанию 512 × 512. Но если вы увеличите сложность, у вас, вероятно, быстро закончатся ваши жетоны.

Как запустить Stable Diffusion в Windows/Linux?

В настоящее время наиболее популярным решением для локального запуска Stable Diffusion является репозиторий веб-интерфейса Stable Diffusion, доступный на GitHub. Основанный на графическом интерфейсе Gradio, он максимально близок к интерфейсу DreamStudio, и вы можете попрощаться с любыми ограничениями.

Каковы требования к ПК для стабильной диффузии?

- 4 ГБ (предпочтительно больше) VRAM GPU (официальная поддержка только для Nvidia!)
пользователи AMD проверяют здесь

Помните, что для использования репозитория веб-интерфейса; вам нужно будет скачать модель самостоятельно с Hugging Face. Убедитесь, что вы полностью прочитали руководство по установке (Windows), чтобы настроить его правильно. Для Linux ознакомьтесь с этим руководством. И вы также можете настроить и запустить его в Google Colab — руководство здесь.

Есть ли альтернативы запуску SD в Windows или Linux?

Стабильный пользовательский интерфейс Diffusion набирает популярность (установка в один клик для Windows и Linux).

Как запустить Stable Diffusion на Mac?

Чарли Хольц выпустил CHARL-E, программу установки одним щелчком мыши для пользователей Mac (M1 и M2).

Стабильная диффузия на вашем Mac в 1 клик с CHARL-E

Особенности:

  • Автоматически загружайте все необходимые веса.
  • Вы можете установить начальное число и выборку DDIM.
  • Сгенерированные изображения сохраняются в галерее.

В качестве альтернативы можно также рассмотреть Diffusion Bee.

Насколько велика модель стабильной диффузии?

Как я упоминал выше, вам необходимо скачать модель Stable Diffusion, ссылку на которую можно найти здесь. Вам нужно будет создать учетную запись на Hugging Face, а затем принять условия лицензии модели, прежде чем вы сможете просматривать и загружать ее файлы.

файлы модели стабильной диффузии на обнимающем лице

Один из вопросов, который возникает у людей, звучит так: «Почему модель имеет размер всего 4 ГБ, хотя она была сделана из более чем 2 миллиардов изображений?» .

И лучший ответ на этот вопрос дает пользователь Hacker News juliendorra ⟶

Это интересная часть: все сгенерированные изображения получены из модели размером менее 4 ГБ (обученные веса нейронной сети).

Таким образом, в модели хранятся сотни миллиардов возможных изображений (каждое из которых является вектором в многомерном скрытом пространстве) и превращаются в пиксели по требованию (управляемые языковой моделью, которая знает, как превратить слова в вектор в этом пространстве). )

Поскольку это детерминировано (учитывая точно такие же параметры запроса, включая случайное начальное число, вы получаете точно такое же изображение), это также форма сжатия (или, по крайней мере, декодирования кодирования): я мог бы отправить вам параметры для 1 миллиона изображений, которые вы бы в состоянии воссоздать на вашей стороне, просто как относительно небольшой текстовый файл.


Учебники и руководства

Следующий раздел полностью посвящен учебным пособиям и руководствам, которые помогут вам извлечь максимальную пользу из запросов Stable Diffusion. Как я уже сказал, я сделаю все возможное, чтобы обновлять эту информацию по мере появления новых руководств и лучшего понимания модели.

Конструктор стабильной диффузионной подсказки

Ниже приведены дополнительные руководства по стилю, но что касается визуального построения подсказок — инструмент promptoMANIA, вероятно, лучший из существующих.

Вы можете начать с добавления описания изображения, которое вы пытаетесь создать, а затем вы можете прокрутить вниз, чтобы начать добавлять детали и имитировать стили различных художников. Есть сотни вариантов на выбор, каждый с визуальным предварительным просмотром.

Когда вы закончите создание своей строки, вы можете скопировать ее, а затем вставить в любой инструмент, который вы используете для создания изображений Stable Diffusion.

Полное руководство для начинающих

Арман Чаудри опубликовал компактную презентацию Google Docs, посвященную основам SD.

В этом руководстве рассматриваются все модификаторы, поддерживаемые SD, а также рекомендации по настройке ширины/высоты и распространенные ошибки, которых следует избегать.

Хроники Акаши

Если вы хотите глубоко погрузиться (или вам нужны ссылки для исследования) — в репозитории SD Akashic Records есть поразительное количество ресурсов для изучения.

Вы найдете все: от использования ключевых слов до оперативной оптимизации и руководств по стилю. Также есть упоминания о нескольких инструментах, помимо уже упомянутых в этой статье.

Быстрая шпаргалка

Если вы ищете вдохновение для применения пользовательских стилей и эффектов к своим подсказкам, ознакомьтесь с этой записью в блоге от Moritz. Он охватывает быстрые дополнения для таких концепций, как 2D и 3D-искусство, детали, освещение, цвета и среды.

Художественные стили и средства

Ознакомьтесь с этим файлом Google Docs, чтобы узнать о более чем 100 различных стилях и средствах, которые можно использовать для создания SD-изображений. Документ основан на одной подсказке, и указанная подсказка была сгенерирована в сотнях различных стилей, чтобы вы могли воспроизвести один и тот же стиль в своих подсказках.

Визуальные и художественные стили

Ознакомьтесь с этим файлом modifiers.json на GitHub, чтобы получить дополнительные стили и рекомендации исполнителей. Это более 200 различных модификаторов, которые вы можете применить к своим подсказкам.