Diffusion stable : didacticiels, ressources et outils

Publié: 2022-09-08

Table des matières

Ressources et informations
- Quelles images ont été utilisées pour entraîner le modèle de diffusion stable ?
- Où trouver des exemples et des invites de diffusion stable ?
- Existe-t-il un serveur Discord officiel ?
Outils et logiciels
- Comment exécuter Stable Diffusion sur Windows/Linux ?
- Comment exécuter Stable Diffusion sur un Mac ?
- Quelle est la taille du modèle Stable Diffusion ?
Tutoriels et guides
- Générateur d'invite de diffusion stable
- Guide du débutant ultime
- Annales Akashiques
- Aide-mémoire rapide
- Styles artistiques et médiums
- Styles visuels et artistiques

Le 22 août, le fondateur de Stability.ai, Emad Mostaque, a annoncé la sortie de Stable Diffusion. Ce modèle d'art génératif d'IA a des capacités supérieures à celles de DALL·E 2 et est également disponible en tant que projet open source. Au cours des semaines qui ont suivi sa sortie, les gens ont abandonné leurs efforts et leurs projets pour accorder toute leur attention à Stable Diffusion.

J'étais déjà très excité quand OpenAI a annoncé DALL·E 2, et j'ai également eu la chance d'avoir un accès anticipé. Mais après avoir joué avec Stable Diffusion ces derniers jours, je peux dire que DALL·E 2 ne se rapproche pas de ce que Stable Diffusion apporte à la table.

Et le fait qu'il soit open-source le rend également beaucoup plus accessible. En seulement deux semaines, des sites comme Lexica ont archivé plus de 10 millions d'images générées par l'IA. Je m'attends également à ce que les développeurs fassent des progrès constants pour intégrer Stable Diffusion aux outils de conception graphique les plus populaires, tels que Figma, Sketch et autres. La capacité de générer des œuvres d'art de haute qualité en déplacement est sans précédent.

Le but de cet article est de répertorier tous les tutoriels, ressources et outils intéressants et pertinents pour vous aider à vous familiariser rapidement avec Stable Diffusion. Je pense qu'au cours des prochains mois, nous assisterons à un afflux massif de projets spécialisés dans l'extraction du meilleur potentiel de Stable Diffusion. Je ferai de mon mieux pour tenir cet article à jour en conséquence.

Tutoriels - cette section est fortement axée sur des sujets tels que "Comment utiliser Stable Diffusion?" .
Ressources - cette section se concentre sur des requêtes telles que "Qu'est-ce que la diffusion stable?".
Outils – cette section est basée sur les outils qui vous permettent d'utiliser Stable Diffusion.

Alors sans plus tarder, commençons par les bases.

Ressources et informations

L'une des premières questions que beaucoup de gens se posent à propos de Stable Diffusion est la licence sous laquelle ce modèle est publié et si l'art généré est libre d'utilisation pour des projets personnels et commerciaux.

La licence que Stable Diffusion utilise est CreativeML Open RAIL-M , et peut être lue en entier sur Hugging Face. En bref, "les licences Open Responsible AI (Open RAIL) sont des licences conçues pour permettre un accès libre et ouvert, la réutilisation et la distribution en aval de dérivés d'artefacts d'IA tant que les restrictions d'utilisation comportementale s'appliquent toujours (y compris aux œuvres dérivées)". .

Une explication plus détaillée de cette licence est disponible sur cette page BigScience.

Quelles images ont été utilisées pour entraîner le modèle de diffusion stable ?

La modélisation de l'IA est le moyen de créer et de former des algorithmes d'apprentissage automatique dans un but précis. Dans ce cas, le but de générer des images à partir des invites de l'utilisateur.

Si vous êtes curieux de savoir quelles images Stable Diffusion ont utilisées, Andy Baio et Simon Willison ont effectué une analyse approfondie de plus de 12 millions d'images (sur un total de 2,3 milliards) qui ont été utilisées pour former le modèle Stable Diffusion.

Voici quelques-uns des principaux plats à emporter :

Les jeux de données qui ont été utilisés pour former Stable Diffusion étaient ceux constitués par LAION.
Sur les 12 millions d'images échantillonnées, 47 % de la taille totale de l'échantillon provenaient de 100 domaines, Pinterest générant 8,5 % de l'ensemble de données. Parmi les autres principales sources, citons WordPress.com, Blogspot, Flickr, DeviantArt et Wikimedia.
Stable Diffusion ne limite pas l'utilisation de la génération d'art à partir des noms de personnes (qu'il s'agisse de célébrités ou autres).

Il sera intéressant de voir comment le modèle évolue et si les entreprises seront prêtes à apporter leurs médias pour faire grandir Stable Diffusion.

Où trouver des exemples et des invites de diffusion stable ?

L'une des façons dont Stable Diffusion diffère de DALL·E est de tirer le meilleur parti de Stable Diffusion ; vous devez vous renseigner sur ses modificateurs . Un modificateur, en particulier, est appelé la graine . Chaque fois que vous générez une image avec Stable Diffusion, cette image se verra attribuer une graine, qui peut également être comprise comme la composition générale de cette image. Donc, si vous avez apprécié une image particulière et souhaitez reproduire son style (ou du moins aussi proche que possible), vous pouvez utiliser des graines.

La meilleure plate-forme pour trouver des exemples et les invites utilisées pour générer ces images est Lexica, qui archive plus de 10 millions d'exemples d'œuvres d'art. Chaque œuvre comprend son invite complète et le numéro de départ, que vous pouvez réutiliser vous-même.

Existe-t-il un serveur Discord officiel ?

Oui!

Vous pouvez y accéder en visitant [https://discord.gg/stablediffusion] ; important de noter que le serveur ne prend plus en charge la génération d'images à partir du serveur lui-même. Cette fonctionnalité était disponible dans le cadre du programme bêta. Si vous souhaitez utiliser Stable Diffusion à partir d'un serveur Discord, vous pouvez consulter des projets tels que Yet Another SD Discord Bot ou visiter leur serveur Discord pour l'essayer.

Outils et logiciels

Si vous avez vu ou été captivé par l'art créé avec Stable Diffusion, vous vous demandez peut-être si vous pouvez l'essayer par vous-même. Et la réponse est oui, et il existe plusieurs façons d'essayer gratuitement Stable Diffusion, notamment à partir du navigateur ou de votre ordinateur.

La manière officielle de le faire est d'utiliser la plate-forme DreamStudio.

Tout le monde peut s'inscrire gratuitement et les nouveaux comptes reçoivent gratuitement 200 jetons gratuits. Ces jetons sont suffisants pour 200 générations tant que vous n'augmentez pas la complexité et que vous ne modifiez pas la hauteur et la largeur au-delà du paramètre par défaut de 512 × 512. Mais si vous augmentez la complexité, vous manquerez probablement rapidement de vos jetons.

Comment exécuter Stable Diffusion sur Windows/Linux ?

Actuellement, la solution la plus populaire pour exécuter Stable Diffusion localement est le dépôt Stable Diffusion Web UI disponible sur GitHub. Basé sur l'interface graphique Gradio, c'est aussi proche que possible de l'interface DreamStudio, et vous pouvez dire adieu à toutes les limitations.

Quelle est la configuration PC requise pour la diffusion stable ?

- 4 Go (plus est préférable) GPU VRAM (prise en charge officielle de Nvidia uniquement !)
– Les utilisateurs d'AMD vérifient ici

N'oubliez pas que pour utiliser le référentiel Web UI; vous devrez télécharger le modèle vous-même à partir de Hugging Face. Assurez-vous de lire entièrement le guide d'installation (Windows) pour le configurer correctement. Pour Linux, consultez ce guide. Et vous pouvez également le faire fonctionner sur Google Colab - guide ici.

Existe-t-il des alternatives à l'exécution de SD sous Windows ou Linux ?

L'interface utilisateur de diffusion stable gagne en popularité (installation en un clic pour Windows et Linux).

Comment exécuter Stable Diffusion sur un Mac ?

Charlie Holtz a publié CHARL-E, un programme d'installation en un clic pour les utilisateurs de Mac (M1 et M2).

Diffusion stable sur votre Mac en 1 clic avec CHARL-E

Les caractéristiques:

Téléchargez automatiquement tous les poids requis.
Vous pouvez définir un numéro de départ et un échantillonnage DDIM.
Les images générées sont enregistrées dans une galerie.

Il y a aussi Diffusion Bee à considérer comme une alternative.

Quelle est la taille du modèle Stable Diffusion ?

Comme je l'ai mentionné ci-dessus, vous devez télécharger le modèle Stable Diffusion, et le lien peut être trouvé ici. Vous devrez créer un compte sur Hugging Face, puis accepter les termes de la licence du modèle avant de pouvoir afficher et télécharger ses fichiers.

fichiers de modèles de diffusion stables sur le visage étreignant

L'une des questions que les gens se posent est la suivante : "Comment se fait-il que le modèle ne fasse que 4 Go, même s'il a été créé à partir de plus de 2 milliards d'images ?" .

Et la meilleure réponse à cette question vient d'un utilisateur de Hacker News juliendorra ⟶

C'est la partie intéressante : toutes les images générées sont dérivées d'un modèle de moins de 4 Go (les poids entraînés du réseau de neurones).

Ainsi, d'une certaine manière, des centaines de milliards d'images possibles sont toutes stockées dans le modèle (chacune un vecteur dans l'espace latent multidimensionnel) et transformées en pixels à la demande (pilotées par le modèle de langage qui sait transformer les mots en vecteur dans cet espace )

Comme c'est déterministe (étant donné exactement les mêmes paramètres de requête, graine aléatoire incluse, vous obtenez exactement la même image), c'est aussi une forme de compression (ou au moins de décodage d'encodage) : je pourrais vous envoyer les paramètres pour 1 million d'images que vous seriez capable de recréer de votre côté, tout comme un fichier texte relativement petit.

Tutoriels et guides

La section suivante est entièrement consacrée aux didacticiels et aux guides pour vous aider à extraire le maximum de jus de vos invites de diffusion stable. Comme je l'ai dit, je ferai de mon mieux pour garder cela à jour au fur et à mesure que de nouveaux guides seront disponibles et qu'une meilleure compréhension du modèle sera acquise.

Générateur d'invite de diffusion stable

Il existe des guides de style supplémentaires ci-dessous, mais en ce qui concerne la création visuelle d'invites, l'outil promptoMANIA est probablement le meilleur qui soit.

Vous pouvez commencer par ajouter la description de l'image que vous essayez de créer, puis vous pouvez faire défiler vers le bas pour commencer à ajouter des détails et imiter les styles de divers artistes. Vous avez le choix entre des centaines d'options, chacune avec un aperçu visuel.

Une fois que vous avez terminé de créer votre chaîne, vous pouvez la copier, puis la coller dans l'outil que vous utilisez pour générer des images de diffusion stable.

Guide du débutant ultime

Arman Chaudhry a publié une présentation Google Docs compacte sur l'essentiel du SD.

Ce guide couvre tous les modificateurs pris en charge par SD, mais recommande également les meilleures pratiques pour les paramètres de largeur/hauteur et les erreurs courantes à éviter.

Annales Akashiques

Si vous cherchez à faire une plongée profonde (ou avez besoin de références pour la recherche) - le référentiel SD Akashic Records a une quantité incroyable de ressources à étudier.

Vous trouverez tout, de l'utilisation des mots-clés à l'optimisation des invites, en passant par les guides de style. Il y a aussi des mentions de plusieurs outils, en dehors de ceux déjà mentionnés dans cet article.

Aide-mémoire rapide

Si vous cherchez de l'inspiration pour appliquer des styles et des effets personnalisés à vos invites, consultez cet article de blog de Moritz. Il couvre des ajouts rapides pour des concepts tels que l'art 2D et 3D, les détails, l'éclairage, les couleurs et les environnements.

Styles artistiques et médiums

Consultez ce fichier Google Docs pour plus de 100 styles et supports différents à utiliser pour votre génération d'images SD. Le document est basé sur une seule invite, et ladite invite a été générée dans des centaines de styles différents afin que vous puissiez reproduire le même style dans vos invites.

Styles visuels et artistiques

Consultez ce fichier modifiers.json sur GitHub pour des styles supplémentaires et des recommandations d'artistes. C'est plus de 200 modificateurs différents que vous pouvez appliquer à vos invites.