Difusión estable: tutoriales, recursos y herramientas

Publicado: 2022-09-08
Tabla de contenido
  • Recursos e información
    • ¿Qué imágenes se usaron para entrenar el modelo de difusión estable?
    • ¿Dónde encontrar ejemplos e indicaciones de difusión estable?
    • ¿Hay un servidor oficial de Discord?
  • Herramientas y Software
    • ¿Cómo ejecutar Stable Diffusion en Windows/Linux?
    • ¿Cómo ejecutar Stable Diffusion en una Mac?
    • ¿Qué tamaño tiene el modelo de difusión estable?
  • Tutoriales y guías
    • Generador de avisos de difusión estable
    • Guía definitiva para principiantes
    • Registros Akáshicos
    • Hoja de referencia rápida
    • Estilos y medios artísticos
    • Estilos visuales y artísticos

El 22 de agosto, el fundador de Stability.ai, Emad Mostaque, anunció el lanzamiento de Stable Diffusion. Este modelo de arte generativo de IA tiene capacidades superiores a las de DALL·E 2 y también está disponible como proyecto de código abierto. En esas semanas desde su lanzamiento, la gente ha abandonado sus esfuerzos y proyectos para prestar toda su atención a Stable Diffusion.

Ya estaba bastante emocionado cuando OpenAI anunció DALL·E 2, y también tuve la suerte de obtener acceso anticipado. Pero después de haber jugado con Stable Diffusion durante los últimos días, puedo decir que DALL·E 2 no se acerca a lo que Stable Diffusion trae a la mesa.

Y el hecho de que sea de código abierto también lo hace mucho más accesible. En solo dos semanas, sitios como Lexica han archivado más de 10 millones de imágenes generadas por IA. También espero que los desarrolladores den pasos firmes para integrar Stable Diffusion con las herramientas de diseño gráfico más populares, como Figma, Sketch y otras. La capacidad de generar arte de alta calidad sobre la marcha no tiene precedentes.

pueblo de kerala, enfoque nítido, plano general, tendencia en ArtStation, obra maestra, de Greg Rutkowski, de Ross Tran, de Fenghua Zhong, octanaje, representación suave, óleo sobre lienzo, colorido, cinematográfico, arte conceptual ambiental
“Pueblo de Kerala, enfoque nítido, plano general, tendencia en artstation, obra maestra, por greg rutkowski, por ross tran, por fenghua zhong, octanaje, renderizado suave, óleo sobre lienzo, colorido, cinematográfico, arte conceptual ambiental”

El propósito de este artículo es enumerar todos los tutoriales, recursos y herramientas interesantes y relevantes para ayudarlo a ponerse al día rápidamente con Stable Diffusion. Creo que en los próximos meses veremos una afluencia masiva de proyectos que se especializan en extraer el máximo potencial de Stable Diffusion. Haré todo lo posible para mantener este artículo actualizado en consecuencia.

  • Tutoriales : esta sección se centra principalmente en temas como "¿Cómo usar Stable Diffusion?" .
  • Recursos : esta sección se centra en consultas como "¿Qué es la difusión estable?".
  • Herramientas : esta sección se basa en herramientas que le permiten usar Stable Diffusion.

Entonces, sin más preámbulos, comencemos con lo básico.


Recursos e información

Una de las primeras preguntas que muchas personas tienen sobre Stable Diffusion es la licencia bajo la cual se publica este modelo y si el arte generado es de uso gratuito para proyectos personales y comerciales.

La licencia que utiliza Stable Diffusion es CreativeML Open RAIL-M y se puede leer en su totalidad en Hugging Face. En resumen, "las licencias de IA abierta y responsable (Open RAIL) son licencias diseñadas para permitir el acceso libre y abierto, la reutilización y la distribución posterior de derivados de artefactos de IA siempre que se apliquen las restricciones de uso conductual (incluidos los trabajos derivados)". .

Una explicación más detallada de esta licencia está disponible en esta página de BigScience.

¿Qué imágenes se usaron para entrenar el modelo de difusión estable?

El modelado de IA es el medio para crear y entrenar algoritmos de aprendizaje automático para un propósito específico. En este caso, la finalidad de generar imágenes a partir de las indicaciones del usuario.

Si tiene curiosidad acerca de qué imágenes usó Stable Diffusion, Andy Baio y Simon Willison realizaron un análisis exhaustivo de más de 12 millones de imágenes (de un total de 2300 millones) que se usaron para entrenar el modelo Stable Diffusion.

Estos son algunos de los puntos clave:

  • Los conjuntos de datos que se utilizaron para entrenar Stable Diffusion fueron los elaborados por LAION.
  • De los 12 millones de imágenes que muestrearon, el 47 % del tamaño total de la muestra provino de 100 dominios, con Pinterest generando el 8,5 % de todo el conjunto de datos. Otras fuentes principales incluyeron WordPress.com, Blogspot, Flickr, DeviantArt y Wikimedia.
  • Stable Diffusion no restringe el uso de la generación de arte a partir de los nombres de las personas (ya sean celebridades o no).

Será interesante ver cómo evoluciona el modelo y si las empresas estarán dispuestas a contribuir con sus medios para ayudar al crecimiento de Stable Diffusion.

¿Dónde encontrar ejemplos e indicaciones de difusión estable?

Una de las formas en que Stable Diffusion difiere de DALL·E es que para aprovechar al máximo Stable Diffusion; tienes que aprender acerca de sus modificadores . Un modificador, en particular, se llama semilla . Siempre que generes una imagen con Stable Diffusion, a esa imagen se le asignará una semilla, que también puede entenderse como la composición general de esa imagen. Entonces, si disfrutó de una imagen en particular y desea replicar su estilo (o al menos lo más cerca posible), puede usar semillas.

Léxico

La mejor plataforma para encontrar ejemplos y las indicaciones utilizadas para generar esas imágenes es Lexica, que archiva más de 10 millones de obras de arte de muestra. Cada obra de arte incluye su indicador completo y el número de semilla, que puede reutilizar usted mismo.

¿Hay un servidor oficial de Discord?

¡Sí!

Puede acceder visitando [https://discord.gg/stablediffusion]; importante tener en cuenta que el servidor ya no admite la generación de imágenes desde el propio servidor. Esta función estaba disponible como parte del programa beta. Si desea utilizar Stable Diffusion desde un servidor Discord, puede buscar proyectos como Yet Another SD Discord Bot, o visitar su servidor Discord para probarlo.


Herramientas y Software

Si ha visto o se ha sentido cautivado por el arte creado con Stable Diffusion, es posible que se pregunte si puede probarlo usted mismo. Y la respuesta es sí, y hay varias formas de probar Stable Diffusion gratis, incluso hacerlo desde el navegador o su máquina.

La forma oficial de hacerlo es usar la plataforma DreamStudio.

Ejemplo de DreamStudio

Cualquiera puede registrarse de forma gratuita, y las cuentas nuevas obtienen 200 tokens gratuitos de cortesía. Estos tokens son suficientes para 200 generaciones siempre que no aumente la complejidad y no cambie la altura y el ancho más allá de la configuración predeterminada de 512 × 512. Pero si aumenta la complejidad, probablemente se quedará sin tokens rápidamente.

¿Cómo ejecutar Stable Diffusion en Windows/Linux?

Actualmente, la solución más popular para ejecutar Stable Diffusion localmente es el repositorio de interfaz de usuario web de Stable Diffusion disponible en GitHub. Basado en la GUI de Gradio, esto es lo más parecido a la interfaz de DreamStudio, y puede despedirse de cualquier limitación.

¿Cuáles son los requisitos de PC para Stable Diffusion?

GPU VRAM de 4 GB (se prefiere más) (¡solo soporte oficial para Nvidia!)
Los usuarios de AMD consultan aquí

Recuerde que para usar el repositorio de Web UI; deberá descargar el modelo usted mismo desde Hugging Face. Asegúrese de leer completamente la Guía de instalación (Windows) para configurarlo correctamente. Para Linux, consulte esta guía. Y también puede ponerlo en funcionamiento en Google Colab: guía aquí.

¿Existen alternativas para ejecutar SD en Windows o Linux?

La interfaz de usuario Stable Diffusion está ganando popularidad (instalación con 1 clic para Windows y Linux).

¿Cómo ejecutar Stable Diffusion en una Mac?

Charlie Holtz ha lanzado CHARL-E, un instalador de 1 clic para usuarios de Mac (M1 y M2).

Difusión estable en tu Mac en 1 clic con CHARL-E

Las características:

  • Descarga automáticamente todos los pesos requeridos.
  • Puede establecer un número de semilla y un muestreo DDIM.
  • Las imágenes generadas se guardan en una galería.

También hay Diffusion Bee para considerar como una alternativa.

¿Qué tamaño tiene el modelo de difusión estable?

Como mencioné anteriormente, debe descargar el modelo Stable Diffusion, y el enlace se puede encontrar aquí. Deberá crear una cuenta en Hugging Face y, luego, aceptar los términos de licencia del modelo antes de poder ver y descargar sus archivos.

archivos de modelo de difusión estable en la cara abrazada

Una de las preguntas que tiene la gente es: "¿Cómo es que el modelo tiene solo 4 GB de tamaño a pesar de que se ha creado a partir de más de 2 mil millones de imágenes?" .

Y la mejor respuesta a esta pregunta viene de un usuario de Hacker News juliendorra ⟶

Esa es la parte interesante: todas las imágenes generadas se derivan de un modelo de menos de 4 gb (los pesos entrenados de la red neuronal).

Entonces, en cierto modo, cientos de miles de millones de imágenes posibles se almacenan en el modelo (cada una un vector en un espacio latente multidimensional) y se convierten en píxeles a pedido (impulsados ​​por el modelo de lenguaje que sabe cómo convertir palabras en un vector en este espacio )

Como es determinista (dados exactamente los mismos parámetros de solicitud, semilla aleatoria incluida, obtienes exactamente la misma imagen) también es una forma de compresión (o al menos codificar y decodificar): podría enviarte los parámetros para 1 millón de imágenes que serías capaz de recrear en su lado, al igual que un archivo de texto relativamente pequeño.


Tutoriales y guías

La siguiente sección está dedicada por completo a tutoriales y guías para ayudarlo a extraer el máximo provecho de sus mensajes de Stable Diffusion. Como dije, haré todo lo posible para mantener esto actualizado a medida que haya más guías disponibles y se obtenga una mejor comprensión del modelo.

Generador de avisos de difusión estable

Hay guías de estilo adicionales a continuación, pero en lo que respecta a la creación visual de indicaciones, la herramienta promptoMANIA es probablemente la mejor que existe.

Puede comenzar agregando la descripción de la imagen que está tratando de crear y luego puede desplazarse hacia abajo para comenzar a agregar detalles e imitar los estilos de varios artistas. Hay cientos de opciones para elegir, cada una con una vista previa visual.

Una vez que haya terminado de construir su cadena, puede copiarla y luego pegarla en cualquier herramienta que esté usando para generar imágenes de difusión estable.

Guía definitiva para principiantes

Arman Chaudhry publicó una presentación compacta de Google Docs sobre los elementos esenciales de SD.

Esta guía cubre todos los modificadores que admite SD, pero también recomienda las mejores prácticas para la configuración de ancho/alto y los errores comunes que se deben evitar.

Registros Akáshicos

Si está buscando hacer una inmersión profunda (o necesita referencias para la investigación), el repositorio SD Akashic Records tiene una cantidad asombrosa de recursos para que estudie.

Encontrará de todo, desde el uso de palabras clave hasta la optimización rápida y las guías de estilo. También se mencionan varias herramientas, además de las ya mencionadas en este artículo.

Hoja de referencia rápida

Si está buscando inspiración para aplicar estilos y efectos personalizados a sus avisos, consulte esta publicación de blog de Moritz. Cubre adiciones rápidas para conceptos como arte 2D y 3D, detalles, iluminación, colores y entornos.

Estilos y medios artísticos

Consulte este archivo de Google Docs para obtener más de 100 estilos y medios diferentes para usar en la generación de imágenes SD. El documento se basa en un solo mensaje, y dicho mensaje se ha generado en cientos de estilos diferentes para que pueda replicar el mismo estilo en sus mensajes.

Estilos visuales y artísticos

Consulte este archivo modifiers.json en GitHub para ver estilos adicionales y recomendaciones de artistas. Son más de 200 modificadores diferentes que puede aplicar a sus avisos.