Diffusione stabile: tutorial, risorse e strumenti

Pubblicato: 2022-09-08
Sommario
  • Risorse e informazioni
    • Quali immagini sono state utilizzate per addestrare il modello di diffusione stabile?
    • Dove trovare esempi e prompt di diffusione stabile?
    • Esiste un server Discord ufficiale?
  • Strumenti e software
    • Come eseguire Stable Diffusion su Windows/Linux?
    • Come eseguire Stable Diffusion su un Mac?
    • Quanto è grande il modello Stable Diffusion?
  • Tutorial e guide
    • Generatore di prompt di diffusione stabile
    • Guida definitiva per principianti
    • Registri Akashici
    • Cheatsheet rapido
    • Stili e mezzi artistici
    • Stili visivi e artistici

Il 22 agosto, il fondatore di Stability.ai Emad Mostaque ha annunciato il rilascio di Stable Diffusion. Questo modello di arte generativa AI ha capacità superiori a quelli di DALL·E 2 ed è disponibile anche come progetto open source. In quelle settimane dalla sua uscita, le persone hanno abbandonato i loro sforzi e progetti per dare a Stable Diffusion la loro piena attenzione.

Ero già abbastanza eccitato quando OpenAI ha annunciato DALL·E 2 e sono stato anche abbastanza fortunato da ottenere l'accesso anticipato. Ma avendo giocato con Stable Diffusion negli ultimi due giorni, posso dire che DALL·E 2 non si avvicina a ciò che Stable Diffusion porta in tavola.

E il fatto che sia open source lo rende anche molto più accessibile. In sole due settimane, siti come Lexica hanno archiviato oltre 10 milioni di immagini generate dall'intelligenza artificiale. Mi aspetto inoltre che gli sviluppatori facciano progressi costanti per integrare Stable Diffusion con gli strumenti di progettazione grafica più popolari, come Figma, Sketch e altri. La capacità di generare arte di alta qualità in movimento non ha precedenti.

villaggio del kerala, messa a fuoco nitida, campo ampio, trend su ArtStation, capolavoro, di Greg Rutkowski, di Ross Tran, di Fenghua Zhong, ottano, soft render, olio su tela, colorato, cinematografico, concept art ambientale
“Villaggio del Kerala, messa a fuoco nitida, campo ampio, trend su artstation, capolavoro, di greg rutkowski, di ross tran, di fenghua zhong, ottano, rendering morbido, olio su tela, concept art colorato, cinematografico, ambientale”

Lo scopo di questo articolo è quello di elencare tutti i tutorial, le risorse e gli strumenti interessanti e rilevanti per aiutarti a diventare rapidamente al passo con Stable Diffusion. Credo che nei prossimi mesi vedremo un massiccio afflusso di progetti specializzati nell'estrarre il massimo potenziale da Stable Diffusion. Farò del mio meglio per mantenere questo articolo aggiornato di conseguenza.

  • Tutorial : questa sezione è fortemente incentrata su argomenti come "Come utilizzare la diffusione stabile?" .
  • Risorse : questa sezione è incentrata su domande come "Cos'è la diffusione stabile?".
  • Strumenti : questa sezione è basata su strumenti che consentono di utilizzare la diffusione stabile.

Quindi, senza ulteriori indugi, iniziamo con le basi.


Risorse e informazioni

Una delle prime domande che molte persone hanno su Stable Diffusion è la licenza con cui è pubblicato questo modello e se l'arte generata è gratuita per progetti personali e commerciali.

La licenza utilizzata da Stable Diffusion è CreativeML Open RAIL-M e può essere letta per intero su Hugging Face. In breve, "Licenze Open Responsible AI (Open RAIL) sono licenze progettate per consentire l'accesso libero e aperto, il riutilizzo e la distribuzione a valle di derivati ​​di artefatti di AI purché si applichino sempre le restrizioni sull'uso comportamentale (comprese le opere derivate)." .

Una spiegazione più dettagliata per questa licenza è disponibile su questa pagina di BigScience.

Quali immagini sono state utilizzate per addestrare il modello di diffusione stabile?

La modellazione AI è il mezzo per creare e addestrare algoritmi di Machine Learning per uno scopo specifico. In questo caso, lo scopo di generare immagini dai prompt dell'utente.

Se sei curioso di sapere quali immagini ha utilizzato Stable Diffusion, Andy Baio e Simon Willison hanno effettuato un'analisi approfondita di oltre 12 milioni di immagini (da un totale di 2,3 miliardi) che sono state utilizzate per addestrare il modello Stable Diffusion.

Ecco alcuni dei punti chiave da asporto:

  • I set di dati che sono stati utilizzati per addestrare Stable Diffusion sono stati quelli messi insieme da LAION.
  • Dei 12 milioni di immagini campionate, il 47% della dimensione totale del campione proveniva da 100 domini, con Pinterest che produceva l'8,5% dell'intero set di dati. Altre fonti principali includevano WordPress.com, Blogspot, Flickr, DeviantArt e Wikimedia.
  • Stable Diffusion non limita l'uso di generare arte dai nomi delle persone (che si tratti di celebrità o altro).

Sarà interessante vedere come si evolverà il modello e se le aziende saranno disposte a contribuire con i loro media per aiutare Stable Diffusion a crescere.

Dove trovare esempi e prompt di diffusione stabile?

Uno dei modi in cui Stable Diffusion si differenzia da DALL·E è quello di ottenere il massimo da Stable Diffusion; devi conoscere i suoi modificatori . Un modificatore, in particolare, è chiamato seed . Ogni volta che generi un'immagine con Stable Diffusion, a quell'immagine verrà assegnato un seme, che può anche essere inteso come la composizione generale di quell'immagine. Quindi, se ti è piaciuta un'immagine particolare e desideri replicarne lo stile (o almeno il più vicino possibile), puoi usare i semi.

lessico

La migliore piattaforma per trovare esempi e le istruzioni utilizzate per generare quelle immagini è Lexica, che archivia oltre 10 milioni di opere d'arte campione. Ogni opera d'arte include il suo prompt completo e il numero del seme, che puoi riutilizzare tu stesso.

Esiste un server Discord ufficiale?

Sì!

Puoi accedervi visitando [https://discord.gg/stablediffusion]; importante notare che il server non supporta più la generazione di immagini dal server stesso. Questa funzione era disponibile come parte del programma beta. Se desideri utilizzare Stable Diffusion da un server Discord, puoi esaminare progetti come Yet Another SD Discord Bot o visitare il loro server Discord per provarlo.


Strumenti e software

Se hai visto o sei stato affascinato dall'arte creata con Stable Diffusion, ti starai chiedendo se puoi provarlo tu stesso. E la risposta è sì, e ci sono diversi modi per provare Stable Diffusion gratuitamente, incluso farlo dal browser o dal tuo computer.

Il modo ufficiale per farlo è utilizzare la piattaforma DreamStudio.

Esempio di DreamStudio

Chiunque può registrarsi gratuitamente e i nuovi account ottengono 200 token gratuiti. Questi token sono sufficienti per 200 generazioni purché non aumenti la complessità e non modifichi l'altezza e la larghezza oltre l'impostazione predefinita 512 × 512. Ma se aumenti la complessità, probabilmente esaurirai rapidamente i tuoi token.

Come eseguire Stable Diffusion su Windows/Linux?

Attualmente, la soluzione più popolare per l'esecuzione locale di Stable Diffusion è il repository dell'interfaccia utente Web di Stable Diffusion disponibile su GitHub. Basato sulla GUI di Gradio, questo è il più vicino possibile all'interfaccia di DreamStudio e puoi dire addio a qualsiasi limitazione.

Quali sono i requisiti del PC per la diffusione stabile?

4GB (preferibilmente di più) GPU VRAM (supporto ufficiale solo per Nvidia!)
Gli utenti AMD controllano qui

Ricorda che per utilizzare il repository dell'interfaccia utente Web; dovrai scaricare tu stesso il modello da Hugging Face. Assicurati di leggere completamente la Guida all'installazione (Windows) per configurarla correttamente. Per Linux, controlla questa guida. E puoi anche farlo funzionare su Google Colab – guida qui.

Ci sono alternative all'esecuzione di SD su Windows o Linux?

L'interfaccia utente a diffusione stabile sta guadagnando popolarità (installazione con 1 clic per Windows e Linux).

Come eseguire Stable Diffusion su un Mac?

Charlie Holtz ha rilasciato CHARL-E, un programma di installazione con 1 clic per utenti Mac (M1 e M2).

Diffusione stabile sul tuo Mac in 1 clic con CHARL-E

Le caratteristiche:

  • Scarica automaticamente tutti i pesi richiesti.
  • È possibile impostare un numero di seme e un campionamento DDIM.
  • Le immagini generate vengono salvate in una galleria.

C'è anche Diffusion Bee da considerare come alternativa.

Quanto è grande il modello Stable Diffusion?

Come ho detto sopra, devi scaricare il modello Stable Diffusion e il link può essere trovato qui. Dovrai creare un account su Hugging Face e, in seguito, accettare i termini di licenza del modello prima di poter visualizzare e scaricare i suoi file.

file modello a diffusione stabile su faccia che abbraccia

Una delle domande che le persone hanno è: "Come mai il modello ha una dimensione di soli 4 GB anche se è stato realizzato con oltre 2 miliardi di immagini?" .

E la migliore risposta a questa domanda viene da un utente di Hacker News juliendorra ⟶

Questa è la parte interessante: tutte le immagini generate derivano da un modello inferiore a 4 GB (i pesi allenati della rete neurale).

Quindi, in un certo senso, centinaia di miliardi di immagini possibili sono tutte memorizzate nel modello (ciascuna un vettore nello spazio latente multidimensionale) e trasformate in pixel su richiesta (guidate dal modello linguistico che sa come trasformare le parole in un vettore in questo spazio )

Dato che è deterministico (dati gli stessi identici parametri di richiesta, seme casuale incluso, ottieni la stessa identica immagine) è anche una forma di compressione (o almeno di decodifica della codifica): potrei inviarti i parametri per 1 milione di immagini che saresti in grado di ricreare dalla tua parte, proprio come un file di testo relativamente piccolo.


Tutorial e guide

La sezione seguente è interamente dedicata a tutorial e guide per aiutarti a estrarre il massimo dai tuoi prompt di diffusione stabile. Come ho detto, farò del mio meglio per mantenerlo aggiornato man mano che saranno disponibili più guide e si acquisirà una migliore comprensione del modello.

Generatore di prompt di diffusione stabile

Ci sono ulteriori guide di stile di seguito, ma per quanto riguarda la creazione visiva dei prompt, lo strumento promptoMANIA è probabilmente il migliore che ci sia.

Puoi iniziare aggiungendo la descrizione dell'immagine che stai cercando di creare, quindi puoi scorrere verso il basso per iniziare ad aggiungere dettagli e imitare gli stili di vari artisti. Ci sono centinaia di opzioni tra cui scegliere, ognuna con un'anteprima visiva.

Una volta che hai finito di costruire la tua stringa, puoi copiarla e quindi incollarla in qualsiasi strumento tu stia utilizzando per generare immagini a diffusione stabile.

Guida definitiva per principianti

Arman Chaudhry ha pubblicato una presentazione compatta di Google Docs sugli elementi essenziali di SD.

Questa guida copre tutti i modificatori supportati da SD, ma consiglia anche le migliori pratiche per le impostazioni di larghezza/altezza ed errori comuni da evitare.

Registri Akashici

Se stai cercando di fare un tuffo profondo (o hai bisogno di riferimenti per la ricerca), il repository SD Akashic Records ha una quantità incredibile di risorse da studiare.

Troverai di tutto, dall'utilizzo delle parole chiave, all'ottimizzazione dei prompt, alle guide di stile. Ci sono anche menzioni di diversi strumenti, al di fuori di quelli già menzionati in questo articolo.

Cheatsheet rapido

Se stai cercando ispirazione per applicare stili ed effetti personalizzati ai tuoi prompt, dai un'occhiata a questo post del blog di Moritz. Copre aggiunte rapide per concetti come arte 2D e 3D, dettagli, illuminazione, colori e ambienti.

Stili e mezzi artistici

Dai un'occhiata a questo file di Google Documenti per oltre 100 stili e mezzi diversi da utilizzare per la generazione di immagini SD. Il documento si basa su un unico prompt e il suddetto prompt è stato generato in centinaia di stili diversi in modo da poter replicare lo stesso stile nei prompt.

Stili visivi e artistici

Dai un'occhiata a questo file modifiers.json su GitHub per stili aggiuntivi e consigli sugli artisti. Sono oltre 200 diversi modificatori che puoi applicare ai tuoi prompt.