Стабильная диффузия: учебные пособия, ресурсы и инструменты

Опубликовано: 2022-09-08

Оглавление

Ресурсы и информация
- Какие изображения использовались для обучения модели стабильной диффузии?
- Где найти примеры и подсказки для стабильной диффузии?
- Есть ли официальный сервер Discord?
Инструменты и программное обеспечение
- Как запустить Stable Diffusion в Windows/Linux?
- Как запустить Stable Diffusion на Mac?
- Насколько велика модель стабильной диффузии?
Учебники и руководства
- Конструктор стабильной диффузионной подсказки
- Полное руководство для начинающих
- Хроники Акаши
- Быстрая шпаргалка
- Художественные стили и средства
- Визуальные и художественные стили

22 августа основатель Stability.ai Эмад Мостак объявил о выпуске Stable Diffusion. Эта модель генеративного искусства с искусственным интеллектом обладает превосходными возможностями по сравнению с DALL·E 2, а также доступна в виде проекта с открытым исходным кодом. За эти недели после его выпуска люди отказались от своих начинаний и проектов, чтобы полностью сосредоточиться на Stable Diffusion.

Я уже был очень взволнован, когда OpenAI анонсировала DALL·E 2, и мне также посчастливилось получить ранний доступ. Но, поигравшись со Stable Diffusion последние пару дней, я могу сказать, что DALL·E 2 и близко не приближается к тому, что предлагает Stable Diffusion.

И тот факт, что он с открытым исходным кодом, также делает его намного более доступным. Всего за две недели такие сайты, как Lexica, заархивировали более 10 миллионов изображений, созданных искусственным интеллектом. Я также полностью ожидаю, что разработчики будут прилагать устойчивые усилия для интеграции Stable Diffusion с наиболее популярными инструментами графического дизайна, такими как Figma, Sketch и другими. Возможность создавать высококачественные изображения на ходу беспрецедентна.

Цель этой статьи — перечислить все интересные и актуальные руководства, ресурсы и инструменты, которые помогут вам быстро освоиться со Stable Diffusion. Я верю, что в ближайшие месяцы мы увидим массовый приток проектов, специализирующихся на извлечении максимального потенциала из Stable Diffusion. Я сделаю все возможное, чтобы эта статья обновлялась соответствующим образом.

Учебники — этот раздел в значительной степени сосредоточен на таких темах, как «Как использовать стабильную диффузию?» .
Ресурсы — этот раздел посвящен таким вопросам, как «Что такое стабильная диффузия?».
Инструменты — этот раздел основан на инструментах, позволяющих использовать стабильную диффузию.

Итак, без лишних слов – давайте начнем с основ.

Ресурсы и информация

Один из первых вопросов, который многие люди задают о Stable Diffusion, — это лицензия, под которой опубликована эта модель, и можно ли использовать сгенерированное искусство для личных и коммерческих проектов.

Stable Diffusion использует лицензию CreativeML Open RAIL-M , и ее можно полностью прочитать на Hugging Face. Короче говоря, «Открытые ответственные лицензии ИИ (Open RAIL) — это лицензии, предназначенные для обеспечения свободного и открытого доступа, повторного использования и дальнейшего распространения производных артефактов ИИ, если всегда применяются поведенческие ограничения на использование (включая производные работы)». .

Более подробное объяснение этой лицензии доступно на этой странице BigScience.

Какие изображения использовались для обучения модели стабильной диффузии?

Моделирование ИИ — это средство создания и обучения алгоритмов машинного обучения для определенной цели. В данном случае цель генерации изображений из подсказок пользователя.

Если вам интересно, какие изображения использовала Stable Diffusion, Энди Байо и Саймон Уиллисон провели тщательный анализ более 12 миллионов изображений (из общего числа 2,3 миллиарда), которые использовались для обучения модели Stable Diffusion.

Вот некоторые из основных выводов:

Наборы данных, которые использовались для обучения Stable Diffusion, были собраны LAION.
Из 12 миллионов изображений, которые они выбрали, 47% от общего размера выборки были получены из 100 доменов, а Pinterest предоставил 8,5% всего набора данных. Другие популярные источники включают WordPress.com, Blogspot, Flickr, DeviantArt и Wikimedia.
Стабильная диффузия не ограничивает использование изображений из имен людей (будь то знаменитости или кто-то другой).

Будет интересно посмотреть, как будет развиваться модель и захотят ли компании внести свой вклад в развитие Stable Diffusion.

Где найти примеры и подсказки для стабильной диффузии?

Одно из отличий стабильной диффузии от подобных DALL·E заключается в том, что она позволяет получить максимальную отдачу от стабильной диффузии; вы должны узнать о его модификаторах . В частности, один модификатор называется seed . Всякий раз, когда вы создаете изображение с помощью Stable Diffusion, этому изображению будет назначено начальное значение, которое также можно понимать как общую композицию этого изображения. Итак, если вам понравилось конкретное изображение и вы хотите воспроизвести его стиль (или, по крайней мере, как можно ближе), вы можете использовать семена.

Лучшей платформой для поиска примеров и подсказок, используемых для создания этих изображений, является Lexica, в которой хранится более 10 миллионов образцов произведений искусства. Каждое произведение включает полную подсказку и начальный номер, который вы можете использовать самостоятельно.

Есть ли официальный сервер Discord?

Да!

Вы можете получить к нему доступ, посетив [https://discord.gg/stablediffusion]; важно отметить, что сервер больше не поддерживает создание изображений с самого сервера. Эта функция была доступна в рамках бета-программы. Если вы хотите использовать Stable Diffusion с сервера Discord, вы можете изучить такие проекты, как Yet Another SD Discord Bot, или посетить их сервер Discord, чтобы попробовать его.

Инструменты и программное обеспечение

Если вы видели или были очарованы искусством, созданным с помощью Stable Diffusion, вам может быть интересно, можете ли вы попробовать это сами. И да, и есть несколько способов бесплатно попробовать Stable Diffusion, в том числе сделать это из браузера или с вашего компьютера.

Официальный способ сделать это — использовать платформу DreamStudio.

Любой может зарегистрироваться бесплатно, а новые аккаунты получают 200 бесплатных токенов. Этих токенов достаточно для 200 поколений, если вы не увеличиваете сложность и не изменяете высоту и ширину за пределы настройки по умолчанию 512 × 512. Но если вы увеличите сложность, у вас, вероятно, быстро закончатся ваши жетоны.

Как запустить Stable Diffusion в Windows/Linux?

В настоящее время наиболее популярным решением для локального запуска Stable Diffusion является репозиторий веб-интерфейса Stable Diffusion, доступный на GitHub. Основанный на графическом интерфейсе Gradio, он максимально близок к интерфейсу DreamStudio, и вы можете попрощаться с любыми ограничениями.

Каковы требования к ПК для стабильной диффузии?

- 4 ГБ (предпочтительно больше) VRAM GPU (официальная поддержка только для Nvidia!)
– пользователи AMD проверяют здесь

Помните, что для использования репозитория веб-интерфейса; вам нужно будет скачать модель самостоятельно с Hugging Face. Убедитесь, что вы полностью прочитали руководство по установке (Windows), чтобы настроить его правильно. Для Linux ознакомьтесь с этим руководством. И вы также можете настроить и запустить его в Google Colab — руководство здесь.

Есть ли альтернативы запуску SD в Windows или Linux?

Стабильный пользовательский интерфейс Diffusion набирает популярность (установка в один клик для Windows и Linux).

Как запустить Stable Diffusion на Mac?

Чарли Хольц выпустил CHARL-E, программу установки одним щелчком мыши для пользователей Mac (M1 и M2).

Стабильная диффузия на вашем Mac в 1 клик с CHARL-E

Особенности:

Автоматически загружайте все необходимые веса.
Вы можете установить начальное число и выборку DDIM.
Сгенерированные изображения сохраняются в галерее.

В качестве альтернативы можно также рассмотреть Diffusion Bee.

Насколько велика модель стабильной диффузии?

Как я упоминал выше, вам необходимо скачать модель Stable Diffusion, ссылку на которую можно найти здесь. Вам нужно будет создать учетную запись на Hugging Face, а затем принять условия лицензии модели, прежде чем вы сможете просматривать и загружать ее файлы.

файлы модели стабильной диффузии на обнимающем лице

Один из вопросов, который возникает у людей, звучит так: «Почему модель имеет размер всего 4 ГБ, хотя она была сделана из более чем 2 миллиардов изображений?» .

И лучший ответ на этот вопрос дает пользователь Hacker News juliendorra ⟶

Это интересная часть: все сгенерированные изображения получены из модели размером менее 4 ГБ (обученные веса нейронной сети).

Таким образом, в модели хранятся сотни миллиардов возможных изображений (каждое из которых является вектором в многомерном скрытом пространстве) и превращаются в пиксели по требованию (управляемые языковой моделью, которая знает, как превратить слова в вектор в этом пространстве). )

Поскольку это детерминировано (учитывая точно такие же параметры запроса, включая случайное начальное число, вы получаете точно такое же изображение), это также форма сжатия (или, по крайней мере, декодирования кодирования): я мог бы отправить вам параметры для 1 миллиона изображений, которые вы бы в состоянии воссоздать на вашей стороне, просто как относительно небольшой текстовый файл.

Учебники и руководства

Следующий раздел полностью посвящен учебным пособиям и руководствам, которые помогут вам извлечь максимальную пользу из запросов Stable Diffusion. Как я уже сказал, я сделаю все возможное, чтобы обновлять эту информацию по мере появления новых руководств и лучшего понимания модели.

Конструктор стабильной диффузионной подсказки

Ниже приведены дополнительные руководства по стилю, но что касается визуального построения подсказок — инструмент promptoMANIA, вероятно, лучший из существующих.

Вы можете начать с добавления описания изображения, которое вы пытаетесь создать, а затем вы можете прокрутить вниз, чтобы начать добавлять детали и имитировать стили различных художников. Есть сотни вариантов на выбор, каждый с визуальным предварительным просмотром.

Когда вы закончите создание своей строки, вы можете скопировать ее, а затем вставить в любой инструмент, который вы используете для создания изображений Stable Diffusion.

Полное руководство для начинающих

Арман Чаудри опубликовал компактную презентацию Google Docs, посвященную основам SD.

В этом руководстве рассматриваются все модификаторы, поддерживаемые SD, а также рекомендации по настройке ширины/высоты и распространенные ошибки, которых следует избегать.

Хроники Акаши

Если вы хотите глубоко погрузиться (или вам нужны ссылки для исследования) — в репозитории SD Akashic Records есть поразительное количество ресурсов для изучения.

Вы найдете все: от использования ключевых слов до оперативной оптимизации и руководств по стилю. Также есть упоминания о нескольких инструментах, помимо уже упомянутых в этой статье.

Быстрая шпаргалка

Если вы ищете вдохновение для применения пользовательских стилей и эффектов к своим подсказкам, ознакомьтесь с этой записью в блоге от Moritz. Он охватывает быстрые дополнения для таких концепций, как 2D и 3D-искусство, детали, освещение, цвета и среды.

Художественные стили и средства

Ознакомьтесь с этим файлом Google Docs, чтобы узнать о более чем 100 различных стилях и средствах, которые можно использовать для создания SD-изображений. Документ основан на одной подсказке, и указанная подсказка была сгенерирована в сотнях различных стилей, чтобы вы могли воспроизвести один и тот же стиль в своих подсказках.

Визуальные и художественные стили

Ознакомьтесь с этим файлом modifiers.json на GitHub, чтобы получить дополнительные стили и рекомендации исполнителей. Это более 200 различных модификаторов, которые вы можете применить к своим подсказкам.