Difuziune stabilă: tutoriale, resurse și instrumente

Publicat: 2022-09-08

Cuprins

Resurse și informații
- Ce imagini au fost folosite pentru a antrena modelul Stable Diffusion?
- Unde găsiți exemple și instrucțiuni de difuzie stabilă?
- Există un server oficial Discord?
Instrumente și software
- Cum se rulează Stable Diffusion pe Windows/Linux?
- Cum se rulează Stable Diffusion pe un Mac?
- Cât de mare este modelul Stable Diffusion?
Tutoriale și ghiduri
- Stable Diffusion Prompt Builder
- Ghid definitiv pentru începători
- Înregistrări Akashice
- Prompt Cheatsheet
- Stiluri și medii de artă
- Stiluri vizuale și de artist

Pe 22 august, fondatorul Stability.ai, Emad Mostaque, a anunțat lansarea Stable Diffusion. Acest model de artă generativă AI are capacități superioare celor ca DALL·E 2 și este disponibil și ca proiect open-source. În acele săptămâni de la lansare, oamenii și-au abandonat eforturile și proiectele pentru a acorda toată atenția lor Stable Diffusion.

Eram deja destul de încântat când OpenAI a anunțat DALL·E 2 și, de asemenea, am avut norocul să obțin acces anticipat. Dar, după ce m-am jucat cu Stable Diffusion în ultimele două zile, pot spune că DALL·E 2 nu se apropie de ceea ce aduce Stable Diffusion la masă.

Și faptul că este open-source îl face și mult mai accesibil. În doar două săptămâni, site-uri precum Lexica au arhivat peste 10 milioane de imagini generate de AI. De asemenea, mă aștept pe deplin ca dezvoltatorii să facă pași constante pentru a integra Stable Diffusion cu cele mai populare instrumente de design grafic, cum ar fi Figma, Sketch și altele. Capacitatea de a genera artă de înaltă calitate din mers este fără precedent.

Scopul acestui articol este de a enumera toate tutorialele, resursele și instrumentele interesante și relevante pentru a vă ajuta să vă familiarizați rapid cu Stable Diffusion. Cred că în următoarele luni, vom vedea un aflux masiv de proiecte specializate în extragerea celui mai mare potențial din Stable Diffusion. Voi face tot posibilul să păstrez acest articol actualizat în consecință.

Tutoriale – această secțiune se concentrează în mare parte pe subiecte precum „Cum se utilizează Difuziunea stabilă?” .
Resurse – această secțiune se concentrează pe interogări precum „Ce este difuzia stabilă?”.
Instrumente – această secțiune se bazează pe instrumente care vă permit să utilizați Stable Diffusion.

Deci, fără alte prelungiri – să începem cu elementele de bază.

Resurse și informații

Una dintre primele întrebări pe care mulți oameni le au despre Stable Diffusion este licența sub care este publicat acest model și dacă arta generată poate fi folosită gratuit pentru proiecte personale și comerciale.

Licența pe care o folosește Stable Diffusion este CreativeML Open RAIL-M și poate fi citită integral la Hugging Face. Pe scurt, „Open Responsible AI License (Open RAIL) sunt licențe concepute pentru a permite accesul liber și deschis, reutilizarea și distribuția în aval a derivatelor artefactelor AI, atâta timp cât se aplică întotdeauna restricțiile de utilizare comportamentală (inclusiv lucrărilor derivate).” .

O explicație mai detaliată pentru această licență este disponibilă pe această pagină BigScience.

Ce imagini au fost folosite pentru a antrena modelul Stable Diffusion?

Modelarea AI este mijlocul de a crea și de a antrena algoritmi de învățare automată pentru un anumit scop. În acest caz, scopul generării de imagini din solicitările utilizatorului.

Dacă sunteți curios despre ce imagini a folosit Stable Diffusion, Andy Baio și Simon Willison au făcut o analiză amănunțită a peste 12 milioane de imagini (din total 2,3 miliarde) care au fost folosite pentru a antrena modelul Stable Diffusion.

Iată câteva dintre concluziile cheie:

Seturile de date care au fost folosite pentru a antrena Stable Diffusion au fost cele create de LAION.
Din cele 12 milioane de imagini pe care le-au eșantionat, 47% din dimensiunea totală a eșantionului a provenit din 100 de domenii, Pinterest oferind 8,5% din întregul set de date. Alte surse de top au inclus WordPress.com, Blogspot, Flickr, DeviantArt și Wikimedia.
Stable Diffusion nu restricționează utilizarea generării de artă din numele oamenilor (fie că este vorba de celebrități sau de altă natură).

Va fi interesant de văzut cum evoluează modelul și dacă companiile vor fi dispuse să contribuie cu media lor pentru a ajuta Stable Diffusion să crească.

Unde găsiți exemple și instrucțiuni de difuzie stabilă?

Unul dintre modurile în care Stable Diffusion diferă de DALL·E este acela de a profita la maximum de Stable Diffusion; trebuie să înveți despre modificatorii săi. Un modificator, în special, se numește sămânța . Ori de câte ori generați o imagine cu Stable Diffusion, acelei imagini i se va atribui o sămânță, care poate fi înțeleasă și ca compoziția generală a acelei imagini. Deci, dacă ți-a plăcut o anumită imagine și vrei să-i reproduci stilul (sau cel puțin cât mai aproape posibil), poți folosi semințe.

Cea mai bună platformă pentru găsirea exemplelor și a solicitărilor folosite pentru a genera acele imagini este Lexica, care arhivează peste 10 milioane de exemple de lucrări de artă. Fiecare opera de artă include promptul său complet și numărul de semințe, pe care le puteți reutiliza singur.

Există un server oficial Discord?

Da!

Îl puteți accesa vizitând [https://discord.gg/stablediffusion]; important de reținut că serverul nu mai acceptă generarea de imagini de pe serverul însuși. Această funcție a fost disponibilă ca parte a programului beta. Dacă doriți să utilizați Stable Diffusion de pe un server Discord - puteți să vă uitați la proiecte precum Yet Another SD Discord Bot sau să vizitați serverul lor Discord pentru a-l încerca.

Instrumente și software

Dacă ați văzut sau ați fost captivat de arta creată cu Stable Diffusion, s-ar putea să vă întrebați dacă o puteți încerca singur. Și răspunsul este da și există mai multe moduri de a încerca gratuit Stable Diffusion, inclusiv din browser sau din computer.

Modul oficial de a face acest lucru este să utilizați platforma DreamStudio.

Oricine se poate înregistra gratuit, iar noile conturi primesc 200 de jetoane gratuite. Aceste jetoane sunt suficiente pentru 200 de generații, atâta timp cât nu creșteți complexitatea și nu modificați înălțimea și lățimea dincolo de setarea implicită de 512×512. Dar dacă creșteți complexitatea, probabil că veți epuiza rapid jetoanele.

Cum se rulează Stable Diffusion pe Windows/Linux?

În prezent, cea mai populară soluție pentru rularea Stable Diffusion la nivel local este Stable Diffusion Web UI repo disponibil pe GitHub. Bazat pe interfața Gradio GUI, aceasta este cât de aproape de interfața DreamStudio și vă puteți lua rămas bun de la orice limitări.

Care sunt cerințele PC-ului pentru Stable Diffusion?

– 4 GB (se preferă mai mult) GPU VRAM (suport oficial numai pentru Nvidia!)
– Utilizatorii AMD verifică aici

Amintiți-vă că pentru a utiliza depozitul Web UI; va trebui să descărcați singur modelul din Hugging Face. Asigurați-vă că citiți în întregime Ghidul de instalare (Windows) pentru a-l configura corect. Pentru Linux, consultați acest ghid. Și îl puteți pune în funcțiune și pe Google Colab – ghid aici.

Există alternative la rularea SD pe Windows sau Linux?

Stable Diffusion UI câștigă popularitate (instalare cu un clic pentru Windows și Linux).

Cum se rulează Stable Diffusion pe un Mac?

Charlie Holtz a lansat CHARL-E, un program de instalare cu un singur clic pentru utilizatorii de Mac (M1 și M2).

Difuziune stabilă pe Mac-ul tău cu 1 clic cu CHARL-E

Caracteristicile:

Descărcați automat toate greutățile necesare.
Puteți seta un număr de semințe și eșantionare DDIM.
Imaginile generate sunt salvate într-o galerie.

Există și Diffusion Bee de luat în considerare ca alternativă.

Cât de mare este modelul Stable Diffusion?

După cum am menționat mai sus, trebuie să descărcați modelul Stable Diffusion, iar linkul poate fi găsit aici. Va trebui să creați un cont pe Hugging Face și, ulterior, să acceptați termenii de licență ai modelului înainte de a putea vizualiza și descărca fișierele acestuia.

fișiere model de difuzie stabilă pe fața îmbrățișată

Una dintre întrebările pe care oamenii le pun este: „Cum de modelul are o dimensiune de doar 4 GB, chiar dacă a fost realizat din peste 2 miliarde de imagini?” .

Și cel mai bun răspuns la această întrebare vine de la un utilizator Hacker News juliiendorra ⟶

Aceasta este partea interesantă: toate imaginile generate sunt derivate dintr-un model mai mic de 4 GB (greutățile antrenate ale rețelei neuronale).

Deci, într-un fel, sute de miliarde de imagini posibile sunt toate stocate în model (fiecare un vector în spațiu latent multidimensional) și transformate în pixeli la cerere (conduse de modelul de limbaj care știe să transforme cuvintele într-un vector în acest spațiu). )

Deoarece este determinist (dați exact aceiași parametri de solicitare, semințe aleatoare incluse, obțineți exact aceeași imagine), este și o formă de compresie (sau cel puțin decodare de codificare): v-aș putea trimite parametrii pentru 1 milion de imagini care ați fi capabil să se recreeze de partea ta, la fel ca un fișier text relativ mic.

Tutoriale și ghiduri

Următoarea secțiune este dedicată în întregime tutorialelor și ghidurilor pentru a vă ajuta să extrageți cel mai mult suc din solicitările dvs. de Stable Diffusion. După cum am spus, voi face tot posibilul pentru a menține acest lucru actualizat pe măsură ce vor fi disponibile mai multe ghiduri și se va obține o mai bună înțelegere a modelului.

Stable Diffusion Prompt Builder

Mai jos există ghiduri de stil suplimentare, dar în ceea ce privește construirea vizuală a solicitărilor – instrumentul promptoMANIA este probabil cel mai bun.

Puteți începe prin a adăuga descrierea imaginii pe care încercați să o creați, apoi puteți derula în jos pentru a începe să adăugați detalii și să imitați stilurile diverșilor artiști. Există sute de opțiuni din care să alegeți, fiecare cu o previzualizare vizuală.

Odată ce ați terminat de construit șirul dvs., îl puteți copia și apoi îl puteți lipi în orice instrument pe care îl utilizați pentru a genera imagini Stable Diffusion.

Ghid definitiv pentru începători

Arman Chaudhry a publicat o prezentare compactă Google Docs despre elementele esențiale ale SD.

Acest ghid acoperă toți modificatorii pe care SD îi acceptă, dar recomandă și cele mai bune practici pentru setările de lățime/înălțime și greșelile comune de evitat.

Înregistrări Akashice

Dacă doriți să faceți o scufundare profundă (sau aveți nevoie de referințe pentru cercetare) - depozitul SD Akashic Records are o cantitate uimitoare de resurse pe care să le studiați.

Veți găsi totul, de la utilizarea cuvintelor cheie, la optimizare promptă, la ghiduri de stil. Există, de asemenea, mențiuni despre mai multe instrumente, în afara celor deja menționate în acest articol.

Prompt Cheatsheet

Dacă sunteți în căutarea inspirației pentru a aplica stiluri și efecte personalizate solicitărilor dvs., consultați această postare de blog de la Moritz. Acesta acoperă completări prompte pentru concepte precum artă 2D și 3D, detalii, iluminare, culori și medii.

Stiluri și medii de artă

Consultați acest fișier Google Docs pentru mai mult de 100 de stiluri și medii diferite de utilizat pentru generarea de imagini SD. Documentul se bazează pe un singur prompt, iar promptul menționat a fost generat în sute de stiluri diferite, astfel încât să puteți replica același stil în solicitări.

Stiluri vizuale și de artist

Consultați acest fișier modifiers.json pe GitHub pentru stiluri suplimentare și recomandări pentru artiști. Sunt peste 200 de modificatori diferiți pe care îi puteți aplica solicitărilor dvs.