Difusi Stabil: Tutorial, Sumber Daya, dan Alat

Diterbitkan: 2022-09-08

Daftar isi

Sumber Daya & Informasi
- Gambar apa yang digunakan untuk melatih model Difusi Stabil?
- Di mana menemukan contoh & petunjuk Difusi Stabil?
- Apakah ada server Discord resmi?
Alat & Perangkat Lunak
- Bagaimana menjalankan Difusi Stabil di Windows/Linux?
- Bagaimana cara menjalankan Difusi Stabil di Mac?
- Seberapa besar model Difusi Stabil?
Tutorial & Panduan
- Pembuat Prompt Difusi Stabil
- Panduan Pemula Utama
- Catatan Akashic
- Lembar Curang Cepat
- Gaya & Media Seni
- Gaya Visual & Artis

Pada tanggal 22 Agustus, pendiri Stability.ai Emad Mostaque mengumumkan rilis Stable Diffusion. Model seni generatif AI ini memiliki kemampuan yang lebih unggul daripada DALL·E 2 dan juga tersedia sebagai proyek sumber terbuka. Dalam minggu-minggu sejak dirilis, orang-orang telah mengabaikan upaya dan proyek mereka untuk memberikan perhatian penuh kepada Difusi Stabil.

Saya sudah cukup bersemangat ketika OpenAI mengumumkan DALL·E 2, dan saya juga cukup beruntung untuk mendapatkan akses awal. Tetapi setelah bermain-main dengan Difusi Stabil selama beberapa hari terakhir, saya dapat mengatakan bahwa DALL·E 2 tidak mendekati apa yang dibawa oleh Difusi Stabil.

Dan fakta bahwa itu adalah open-source juga membuatnya lebih mudah diakses. Hanya dalam dua minggu, situs seperti Lexica telah mengarsipkan lebih dari 10 juta gambar yang dihasilkan AI. Saya juga sepenuhnya berharap bahwa pengembang akan membuat langkah mantap untuk mengintegrasikan Difusi Stabil dengan alat desain grafis paling populer, seperti Figma, Sketch, dan lainnya. Kemampuan untuk menghasilkan seni berkualitas tinggi saat bepergian belum pernah terjadi sebelumnya.

Tujuan artikel ini adalah untuk membuat daftar semua tutorial, sumber daya, dan alat yang menarik dan relevan untuk membantu Anda dengan cepat mendapatkan kecepatan dengan Difusi Stabil. Saya percaya selama beberapa bulan mendatang, kita akan melihat gelombang besar proyek yang mengkhususkan diri dalam mengekstraksi potensi paling besar dari Difusi Stabil. Saya akan melakukan yang terbaik untuk terus memperbarui artikel ini.

Tutorial – bagian ini sangat berfokus pada topik seperti “Bagaimana cara menggunakan Difusi Stabil?” .
Sumber Daya – bagian ini difokuskan pada pertanyaan seperti “Apa itu Difusi Stabil?”.
Alat – bagian ini didasarkan pada alat yang memungkinkan Anda menggunakan Difusi Stabil.

Jadi tanpa basa-basi lagi - mari kita mulai dengan dasar-dasarnya.

Sumber Daya & Informasi

Salah satu pertanyaan pertama yang dimiliki banyak orang tentang Difusi Stabil adalah lisensi model ini diterbitkan di bawah dan apakah seni yang dihasilkan bebas digunakan untuk proyek pribadi dan komersial.

Lisensi yang digunakan Stable Diffusion adalah CreativeML Open RAIL-M , dan dapat dibaca selengkapnya di Hugging Face. Singkatnya, “Lisensi AI yang Bertanggung Jawab Terbuka (Open RAIL) adalah lisensi yang dirancang untuk mengizinkan akses bebas dan terbuka, penggunaan kembali, dan distribusi hilir turunan artefak AI selama pembatasan penggunaan perilaku selalu berlaku (termasuk pada karya turunan).” .

Penjelasan lebih rinci untuk lisensi ini tersedia di halaman BigScience ini.

Gambar apa yang digunakan untuk melatih model Difusi Stabil?

Pemodelan AI adalah sarana untuk membuat dan melatih algoritma Machine Learning untuk tujuan tertentu. Dalam hal ini, tujuan menghasilkan gambar dari petunjuk pengguna.

Jika Anda penasaran tentang gambar mana yang digunakan Difusi Stabil, Andy Baio dan Simon Willison melakukan analisis menyeluruh terhadap lebih dari 12 juta gambar (dari total 2,3 miliar) yang digunakan untuk melatih model Difusi Stabil.

Berikut adalah beberapa takeaways utama:

Dataset yang digunakan untuk melatih Stable Diffusion adalah yang dikumpulkan oleh LAION.
Dari 12 juta gambar yang mereka ambil sampelnya, 47% dari total ukuran sampel berasal dari 100 domain, dengan Pinterest menghasilkan 8,5% dari seluruh kumpulan data. Sumber teratas lainnya termasuk WordPress.com, Blogspot, Flickr, DeviantArt, dan Wikimedia.
Difusi Stabil tidak membatasi penggunaan menghasilkan seni dari nama orang (baik itu selebriti atau lainnya).

Akan menarik untuk melihat bagaimana model ini berkembang dan apakah perusahaan akan bersedia menyumbangkan media mereka untuk membantu Stable Diffusion tumbuh.

Di mana menemukan contoh & petunjuk Difusi Stabil?

Salah satu cara Difusi Stabil berbeda dari DALL·E adalah dengan memaksimalkan Difusi Stabil; Anda harus belajar tentang pengubahnya . Satu pengubah, khususnya, disebut seed . Setiap kali Anda menghasilkan gambar dengan Difusi Stabil, gambar itu akan diberi benih, yang juga dapat dipahami sebagai komposisi umum gambar itu. Jadi, jika Anda menikmati gambar tertentu dan ingin meniru gayanya (atau setidaknya sedekat mungkin), Anda dapat menggunakan seed.

Platform terbaik untuk menemukan contoh dan petunjuk yang digunakan untuk menghasilkan gambar tersebut adalah Lexica, yang mengarsipkan lebih dari 10 juta contoh karya seni. Setiap karya seni menyertakan prompt lengkap dan nomor benih, yang dapat Anda gunakan kembali sendiri.

Apakah ada server Discord resmi?

Ya!

Anda dapat mengaksesnya dengan mengunjungi [https://discord.gg/stablediffusion]; penting untuk dicatat bahwa server tidak lagi mendukung pembuatan gambar dari server itu sendiri. Fitur ini tersedia sebagai bagian dari program beta. Jika Anda ingin menggunakan Difusi Stabil dari server Discord – Anda dapat melihat proyek seperti Yet Another SD Discord Bot, atau kunjungi server Discord mereka untuk mencobanya.

Alat & Perangkat Lunak

Jika Anda pernah melihat atau terpikat oleh seni yang dibuat dengan Difusi Stabil, Anda mungkin bertanya-tanya apakah Anda dapat mencobanya sendiri. Dan jawabannya adalah ya, dan ada beberapa cara untuk mencoba Stable Diffusion secara gratis, termasuk melakukannya dari browser atau mesin Anda.

Cara resmi untuk melakukannya adalah dengan menggunakan platform DreamStudio.

Siapa pun dapat mendaftar secara gratis, dan akun baru mendapatkan 200 token gratis gratis. Token ini cukup untuk 200 generasi selama Anda tidak menambah kerumitan dan tidak mengubah tinggi dan lebar melewati pengaturan default 512x512. Tetapi jika Anda meningkatkan kerumitannya, Anda mungkin akan kehabisan token dengan cepat.

Bagaimana menjalankan Difusi Stabil di Windows/Linux?

Saat ini, solusi paling populer untuk menjalankan Difusi Stabil secara lokal adalah repo UI Web Difusi Stabil yang tersedia di GitHub. Berdasarkan Gradio GUI, ini sedekat mungkin dengan antarmuka DreamStudio, dan Anda dapat mengucapkan selamat tinggal pada batasan apa pun.

Apa persyaratan PC untuk Difusi Stabil?

– 4GB (lebih disukai) VRAM GPU (Dukungan resmi untuk Nvidia saja!)
– Pengguna AMD cek di sini

Ingatlah bahwa untuk menggunakan repo UI Web; Anda harus mengunduh sendiri modelnya dari Hugging Face. Pastikan Anda membaca sepenuhnya panduan Instalasi (Windows) untuk mengaturnya dengan benar. Untuk Linux, periksa panduan ini. Dan Anda juga dapat mengaktifkan dan menjalankannya di Google Colab – panduan di sini.

Apakah ada alternatif untuk menjalankan SD di Windows atau Linux?

UI Difusi Stabil semakin populer (instal 1-klik untuk Windows dan Linux).

Bagaimana cara menjalankan Difusi Stabil di Mac?

Charlie Holtz telah merilis CHARL-E, penginstal 1-klik untuk pengguna Mac (M1 & M2).

Difusi Stabil di Mac Anda dalam 1 klik dengan CHARL-E

Fitur-fitur:

Secara otomatis mengunduh semua bobot yang diperlukan.
Anda dapat mengatur nomor benih dan pengambilan sampel DDIM.
Gambar yang dihasilkan disimpan di galeri.

Ada juga Diffusion Bee untuk dipertimbangkan sebagai alternatif.

Seberapa besar model Difusi Stabil?

Seperti yang saya sebutkan di atas, Anda harus mengunduh model Difusi Stabil, dan tautannya dapat ditemukan di sini. Anda harus membuat akun di Hugging Face, dan, setelah itu, menerima persyaratan lisensi model sebelum Anda dapat melihat dan mengunduh file-nya.

file model difusi stabil pada wajah berpelukan

Salah satu pertanyaan yang dilontarkan orang-orang adalah, “Kenapa modelnya hanya berukuran 4GB padahal sudah dibuat dari lebih dari 2 miliar gambar?” .

Dan jawaban terbaik untuk pertanyaan ini datang dari pengguna Hacker News juliendorra

Itulah bagian yang menarik: semua gambar yang dihasilkan berasal dari model kurang dari 4 GB (bobot terlatih dari jaringan saraf).

Jadi di satu sisi, ratusan miliar gambar yang mungkin semua disimpan dalam model (masing-masing vektor dalam ruang laten multidimensi) dan diubah menjadi piksel sesuai permintaan (didorong oleh model bahasa yang tahu cara mengubah kata menjadi vektor di ruang ini )

Karena bersifat deterministik (mengingat parameter permintaan yang sama persis, termasuk benih acak, Anda mendapatkan gambar yang sama persis), ini juga merupakan bentuk kompresi (atau setidaknya pengodean pengodean) juga: Saya dapat mengirimi Anda parameter untuk 1 juta gambar yang Anda inginkan dapat dibuat ulang di sisi Anda, seperti file teks yang relatif kecil.

Tutorial & Panduan

Bagian berikut didedikasikan sepenuhnya untuk tutorial dan panduan untuk membantu Anda mengekstrak jus paling banyak dari petunjuk Difusi Stabil Anda. Seperti yang saya katakan, saya akan melakukan yang terbaik untuk terus memperbarui ini karena lebih banyak panduan tersedia dan pemahaman yang lebih baik tentang model diperoleh.

Pembuat Prompt Difusi Stabil

Ada panduan gaya tambahan di bawah ini, tetapi sejauh membangun prompt secara visual – alat promptoMANIA mungkin yang terbaik.

Anda dapat mulai dengan menambahkan deskripsi gambar yang Anda coba buat, lalu Anda dapat menggulir ke bawah untuk mulai menambahkan detail dan meniru gaya berbagai artis. Ada ratusan opsi untuk dipilih, masing-masing dengan pratinjau visual.

Setelah selesai membuat string, Anda dapat menyalinnya dan menempelkannya ke alat apa pun yang Anda gunakan untuk menghasilkan gambar Difusi Stabil.

Panduan Pemula Utama

Arman Chaudhry memublikasikan presentasi Google Documents ringkas tentang esensi SD.

Panduan ini mencakup semua pengubah yang didukung SD tetapi juga merekomendasikan praktik terbaik untuk pengaturan lebar/tinggi dan kesalahan umum yang harus dihindari.

Catatan Akashic

Jika Anda ingin menyelam lebih dalam (atau membutuhkan referensi untuk penelitian) – repositori SD Akashic Records memiliki sumber daya yang luar biasa untuk Anda pelajari.

Anda akan menemukan semuanya mulai dari penggunaan kata kunci, hingga pengoptimalan yang cepat, hingga panduan gaya. Ada juga yang menyebutkan beberapa alat, di luar yang sudah disebutkan dalam artikel ini.

Lembar Curang Cepat

Jika Anda mencari inspirasi untuk menerapkan gaya dan efek khusus pada permintaan Anda, lihat posting blog ini dari Moritz. Ini mencakup penambahan cepat untuk konsep seperti seni 2D & 3D, detail, pencahayaan, warna, dan lingkungan.

Gaya & Media Seni

Lihat file Google Documents ini untuk mengetahui hingga 100+ gaya dan media berbeda yang digunakan untuk pembuatan gambar SD Anda. Dokumen didasarkan pada satu prompt, dan prompt tersebut telah dibuat dalam ratusan gaya yang berbeda sehingga Anda dapat mereplikasi gaya yang sama di prompt Anda.

Gaya Visual & Artis

Lihat file modifiers.json ini di GitHub untuk gaya tambahan dan rekomendasi artis. Ada lebih dari 200 pengubah berbeda yang dapat Anda terapkan pada prompt Anda.