การแพร่กระจายที่เสถียร: บทช่วยสอน แหล่งข้อมูล และเครื่องมือ

เผยแพร่แล้ว: 2022-09-08
สารบัญ
  • แหล่งข้อมูลและข้อมูล
    • รูปภาพใดที่ใช้ในการฝึกโมเดล Stable Diffusion
    • จะหาตัวอย่างและข้อความแจ้งการแพร่กระจายที่เสถียรได้ที่ไหน
    • มีเซิร์ฟเวอร์ Discord อย่างเป็นทางการหรือไม่?
  • เครื่องมือและซอฟต์แวร์
    • จะรัน Stable Diffusion บน Windows/Linux ได้อย่างไร?
    • วิธีเรียกใช้ Stable Diffusion บน Mac
    • โมเดล Stable Diffusion ใหญ่แค่ไหน?
  • บทแนะนำ & คำแนะนำ
    • ตัวสร้างพรอมต์การแพร่กระจายที่เสถียร
    • สุดยอดคู่มือสำหรับผู้เริ่มต้น
    • Akashic Records
    • ชีทชีทพร้อมท์
    • สไตล์ศิลปะและสื่อ
    • ทัศนศิลป์และสไตล์ศิลปิน

เมื่อวันที่ 22 สิงหาคม Emad Mostaque ผู้ก่อตั้ง Stability.ai ได้ประกาศเปิดตัว Stable Diffusion โมเดล AI generative art นี้มีความสามารถที่เหนือกว่า DALL·E 2 และยังมีให้ใช้งานในรูปแบบโอเพ่นซอร์สอีกด้วย ในช่วงหลายสัปดาห์นับตั้งแต่เปิดตัว ผู้คนได้ละทิ้งความพยายามและโครงการเพื่อให้ได้รับความสนใจอย่างเต็มที่จาก Stable Diffusion

ฉันค่อนข้างตื่นเต้นมากเมื่อ OpenAI ประกาศ DALL·E 2 และฉันก็โชคดีที่เข้าถึงได้ก่อนใคร แต่เมื่อลองเล่นกับ Stable Diffusion ในช่วงสองสามวันที่ผ่านมา ฉันสามารถพูดได้ว่า DALL·E 2 ไม่ได้ใกล้เคียงกับสิ่งที่ Stable Diffusion นำมาสู่โต๊ะ

และความจริงที่ว่ามันเป็นโอเพ่นซอร์สยังทำให้สามารถเข้าถึงได้มากขึ้น ในเวลาเพียงสองสัปดาห์ เว็บไซต์อย่าง Lexica ได้เก็บถาวรรูปภาพที่สร้างโดย AI กว่า 10 ล้านภาพ ฉันยังคาดหวังอย่างเต็มที่ว่านักพัฒนาจะก้าวไปข้างหน้าอย่างมั่นคงในการรวม Stable Diffusion เข้ากับเครื่องมือออกแบบกราฟิกยอดนิยม เช่น Figma, Sketch และอื่นๆ ความสามารถในการสร้างงานศิลปะคุณภาพสูงในขณะเดินทางนั้นไม่เคยมีมาก่อน

หมู่บ้าน Kerala โฟกัสที่คมชัด ภาพกว้าง มีแนวโน้มใน ArtStation ผลงานชิ้นเอก โดย Greg Rutkowski โดย Ross Tran โดย Fenghua Zhong ออกเทน ซอฟต์เรนเดอร์ สีน้ำมันบนผ้าใบ สีสัน ภาพยนตร์ แนวคิดเกี่ยวกับสิ่งแวดล้อม
“หมู่บ้านเกรละ โฟกัสเฉียบ ช็อตไวด์ เทรนด์อาร์ตสเตชั่น ผลงานชิ้นเอก โดย greg rutkowski โดย ross tran โดย fenghua zhong ออกเทน ซอฟต์เรนเดอร์ สีน้ำมันบนผ้าใบ สีสัน ภาพยนตร์ แนวคิดเกี่ยวกับสิ่งแวดล้อม”

จุดประสงค์ของบทความนี้คือการแสดงรายการบทช่วยสอน แหล่งข้อมูล และเครื่องมือที่น่าสนใจและเกี่ยวข้องทั้งหมด เพื่อช่วยให้คุณก้าวทันกับ Stable Diffusion ได้อย่างรวดเร็ว ฉันเชื่อว่าในอีกไม่กี่เดือนข้างหน้า เราจะเห็นโครงการจำนวนมากที่หลั่งไหลเข้ามา ซึ่งเชี่ยวชาญในการดึงเอาศักยภาพสูงสุดออกจาก Stable Diffusion ฉันจะทำให้ดีที่สุดเพื่อให้บทความนี้อัปเดตตามนั้น

  • บทช่วย สอน – ส่วนนี้จะเน้นหนักในหัวข้อต่างๆ เช่น “วิธีใช้การแพร่กระจายที่เสถียร” .
  • แหล่งข้อมูล – ส่วนนี้เน้นที่การสืบค้น เช่น “การแพร่กระจายที่เสถียรคืออะไร”
  • เครื่องมือ – ส่วนนี้อิงตามเครื่องมือที่ช่วยให้คุณใช้ Stable Diffusion

ดังนั้นโดยไม่ต้องกังวลใจอีกต่อไป – มาเริ่มกันที่พื้นฐานกันก่อน


แหล่งข้อมูลและข้อมูล

หนึ่งในคำถามแรกๆ ที่หลายคนมีเกี่ยวกับ Stable Diffusion คือใบอนุญาตของโมเดลนี้ที่เผยแพร่ภายใต้ และไม่ว่างานศิลปะที่สร้างขึ้นนั้นจะใช้ได้ ฟรี สำหรับโครงการส่วนบุคคลและเชิงพาณิชย์หรือไม่

ใบอนุญาต Stable Diffusion ที่ใช้คือ CreativeML Open RAIL-M และสามารถอ่านแบบเต็มได้ที่ Hugging Face กล่าวโดยย่อ "ใบอนุญาต AI แบบมีความรับผิดชอบแบบเปิด (Open RAIL) เป็นใบอนุญาตที่ออกแบบมาเพื่ออนุญาตการเข้าถึงแบบเปิด ใช้ซ้ำ และแจกจ่ายอนุพันธ์ของสิ่งประดิษฐ์ AI ที่ปลายน้ำได้ฟรี ตราบใดที่มีข้อจำกัดการใช้ตามพฤติกรรมเสมอ (รวมถึงงานลอกเลียนแบบ)" .

คำอธิบายโดยละเอียดเพิ่มเติมสำหรับใบอนุญาตนี้มีอยู่ในหน้า BigScience นี้

รูปภาพใดที่ใช้ในการฝึกโมเดล Stable Diffusion

การสร้างแบบจำลอง AI เป็นวิธีการสร้างและฝึกอบรมอัลกอริธึมการเรียนรู้ของเครื่องเพื่อวัตถุประสงค์เฉพาะ ในกรณีนี้ จุดประสงค์ของการสร้างรูปภาพจากข้อความแจ้งของผู้ใช้

หากคุณสงสัยว่าภาพใดที่ใช้ Stable Diffusion Andy Baio และ Simon Willison ได้ทำการวิเคราะห์ภาพมากกว่า 12 ล้านภาพ (จากทั้งหมด 2.3 พันล้านภาพ) อย่างละเอียดซึ่งใช้ในการฝึกโมเดล Stable Diffusion

นี่คือประเด็นสำคัญบางประการ:

  • ชุดข้อมูลที่ใช้ในการฝึก Stable Diffusion คือชุดข้อมูลที่ LAION รวบรวม
  • จาก 12 ล้านภาพที่พวกเขาสุ่มตัวอย่าง 47% ของขนาดตัวอย่างทั้งหมดมาจาก 100 โดเมน โดย Pinterest ให้ผลตอบแทน 8.5% ของชุดข้อมูลทั้งหมด แหล่งข้อมูลชั้นนำอื่นๆ ได้แก่ WordPress.com, Blogspot, Flickr, DeviantArt และ Wikimedia
  • การแพร่กระจายที่เสถียรไม่ได้จำกัดการใช้การสร้างงานศิลปะจากชื่อของบุคคล (ไม่ว่าจะเป็นคนดังหรืออย่างอื่น)

เป็นเรื่องที่น่าสนใจที่จะเห็นว่ารูปแบบดังกล่าวมีวิวัฒนาการอย่างไร และบริษัทต่างๆ จะเต็มใจที่จะสนับสนุนสื่อของตนเพื่อช่วยให้ Stable Diffusion เติบโตหรือไม่

จะหาตัวอย่างและข้อความแจ้งการแพร่กระจายที่เสถียรได้ที่ไหน

วิธีหนึ่งที่ Stable Diffusion แตกต่างจาก DALL·E คือการใช้ประโยชน์จาก Stable Diffusion ให้ได้มากที่สุด คุณต้องเรียนรู้เกี่ยวกับ ตัวดัดแปลง ของมัน โดยเฉพาะอย่างยิ่งตัวดัดแปลงหนึ่งตัวเรียกว่า เมล็ด เมื่อใดก็ตามที่คุณสร้างภาพที่มีการแพร่กระจายที่เสถียร ภาพนั้นจะได้รับการตั้งค่าเมล็ดพันธุ์ ซึ่งสามารถเข้าใจได้ว่าเป็นองค์ประกอบทั่วไปของภาพนั้น ดังนั้น หากคุณชอบภาพใดภาพหนึ่งและต้องการจำลองสไตล์ของมัน (หรืออย่างน้อยก็ใกล้เคียงที่สุด) คุณสามารถใช้เมล็ดได้

Lexica

แพลตฟอร์มที่ดีที่สุดสำหรับการค้นหาตัวอย่างและข้อความแจ้งที่ใช้ในการสร้างภาพเหล่านั้นคือ Lexica ซึ่งจัดเก็บตัวอย่างงานศิลปะกว่า 10 ล้านชิ้น งานศิลปะแต่ละชิ้นมีข้อความแจ้งแบบเต็มและหมายเลขเมล็ดพันธุ์ซึ่งคุณสามารถใช้ซ้ำได้

มีเซิร์ฟเวอร์ Discord อย่างเป็นทางการหรือไม่?

ใช่!

คุณสามารถเข้าถึงได้โดยไปที่ [https://discord.gg/stablediffusion]; สิ่งสำคัญที่ควรทราบคือเซิร์ฟเวอร์ไม่รองรับการสร้างรูปภาพจากเซิร์ฟเวอร์เองอีกต่อไป คุณลักษณะนี้มีให้โดยเป็นส่วนหนึ่งของโปรแกรมเบต้า หากคุณต้องการใช้ Stable Diffusion จากเซิร์ฟเวอร์ Discord คุณสามารถดูโปรเจ็กต์ต่างๆ เช่น Yet Another SD Discord Bot หรือไปที่เซิร์ฟเวอร์ Discord เพื่อทดลองใช้


เครื่องมือและซอฟต์แวร์

หากคุณเคยเห็นหรือหลงใหลในงานศิลปะที่สร้างด้วย Stable Diffusion คุณอาจสงสัยว่าคุณสามารถลองใช้เองได้หรือไม่ และคำตอบก็คือ ใช่ และมีหลายวิธีที่จะได้ลองใช้ Stable Diffusion ได้ฟรี ซึ่งรวมถึงการทดลองจากเบราว์เซอร์หรือเครื่องของคุณ

วิธีอย่างเป็นทางการคือใช้แพลตฟอร์ม DreamStudio

ตัวอย่าง DreamStudio

ทุกคนสามารถลงทะเบียนได้ฟรี และบัญชีใหม่จะได้รับโทเค็นฟรี 200 เหรียญ โทเค็นเหล่านี้เพียงพอสำหรับ 200 รุ่นตราบใดที่คุณไม่เพิ่มความซับซ้อนและไม่เปลี่ยนความสูงและความกว้างหลังจากการตั้งค่าเริ่มต้น 512 × 512 แต่ถ้าคุณเพิ่มความซับซ้อน โทเค็นของคุณอาจหมดอย่างรวดเร็ว

จะรัน Stable Diffusion บน Windows/Linux ได้อย่างไร?

ปัจจุบัน โซลูชันที่ได้รับความนิยมมากที่สุดสำหรับการรัน Stable Diffusion ในเครื่องคือ Stable Diffusion Web UI repo ที่มีอยู่ใน GitHub ตาม Gradio GUI สิ่งนี้ใกล้เคียงกับอินเทอร์เฟซ DreamStudio และคุณสามารถโบกมือลากับข้อ จำกัด ใด ๆ

ข้อกำหนดสำหรับพีซีสำหรับการแพร่กระจายที่เสถียรคืออะไร

4GB (เป็นที่ต้องการมากกว่า) VRAM GPU (รองรับอย่างเป็นทางการสำหรับ Nvidia เท่านั้น!)
ผู้ใช้ AMD ตรวจสอบที่นี่

จำไว้ว่าให้ใช้ repo ของเว็บ UI; คุณจะต้องดาวน์โหลดโมเดลด้วยตัวเองจาก Hugging Face ตรวจสอบให้แน่ใจว่าคุณได้อ่านคู่มือการติดตั้ง (Windows) อย่างครบถ้วนเพื่อตั้งค่าอย่างถูกต้อง สำหรับ Linux ให้ตรวจสอบคู่มือนี้ และคุณยังสามารถเริ่มต้นใช้งานได้บน Google Colab – คำแนะนำที่นี่

มีทางเลือกอื่นในการรัน SD บน Windows หรือ Linux หรือไม่?

Stable Diffusion UI กำลังได้รับความนิยม (ติดตั้ง 1 คลิกสำหรับ Windows และ Linux)

วิธีเรียกใช้ Stable Diffusion บน Mac

Charlie Holtz ได้เปิดตัว CHARL-E โปรแกรมติดตั้ง 1 คลิกสำหรับผู้ใช้ Mac (M1 & M2)

การแพร่กระจายที่เสถียรบน Mac ของคุณใน 1 คลิกด้วย CHARL-E

คุณสมบัติ:

  • ดาวน์โหลดน้ำหนักที่ต้องการทั้งหมดโดยอัตโนมัติ
  • คุณสามารถตั้งค่าหมายเลขเมล็ดพันธุ์และการสุ่มตัวอย่าง DDIM
  • รูปภาพที่สร้างขึ้นจะถูกบันทึกไว้ในแกลเลอรี

นอกจากนี้ยังมี Diffusion Bee ให้พิจารณาเป็นทางเลือกอีกด้วย

โมเดล Stable Diffusion ใหญ่แค่ไหน?

ดังที่ได้กล่าวไว้ข้างต้น คุณต้องดาวน์โหลด Stable Diffusion model และสามารถพบลิงค์ได้ที่นี่ คุณจะต้องสร้างบัญชีบน Hugging Face และหลังจากนั้น คุณต้องยอมรับเงื่อนไขใบอนุญาตของโมเดลก่อนจึงจะสามารถดูและดาวน์โหลดไฟล์ได้

ไฟล์โมเดลการแพร่กระจายที่เสถียรบนใบหน้ากอด

คำถามหนึ่งที่ผู้คนมีคือ “ทำไมโมเดลถึงมีขนาดเพียง 4GB ทั้งๆ ที่มันถูกสร้างขึ้นจากภาพมากกว่า 2 พันล้านภาพ” .

และคำตอบที่ดีที่สุดสำหรับคำถามนี้มาจากผู้ใช้ Hacker News juliendorra ⟶

นั่นคือส่วนที่น่าสนใจ: รูปภาพทั้งหมดที่สร้างขึ้นมาจากโมเดลที่น้อยกว่า 4GB (น้ำหนักที่ผ่านการฝึกของโครงข่ายประสาทเทียม)

ในทางใดทางหนึ่ง รูปภาพที่เป็นไปได้หลายแสนล้านภาพทั้งหมดถูกเก็บไว้ในโมเดล (แต่ละเวกเตอร์ในพื้นที่แฝงหลายมิติ) และกลายเป็นพิกเซลตามต้องการ (ขับเคลื่อนโดยโมเดลภาษาที่รู้วิธีเปลี่ยนคำให้เป็นเวกเตอร์ในพื้นที่นี้ )

เนื่องจากเป็นตัวกำหนด (ด้วยพารามิเตอร์คำขอที่เหมือนกันทุกประการ การรวมเมล็ดสุ่ม คุณจะได้ภาพเดียวกัน) มันเป็นรูปแบบการบีบอัด (หรืออย่างน้อยก็เข้ารหัสการถอดรหัส) ด้วย: ฉันสามารถส่งพารามิเตอร์สำหรับรูปภาพ 1 ล้านรูปที่คุณจะเป็น สามารถสร้างใหม่ได้ทางฝั่งของคุณ เช่นเดียวกับไฟล์ข้อความที่ค่อนข้างเล็ก


บทแนะนำ & คำแนะนำ

ส่วนต่อไปนี้มีเนื้อหาเฉพาะสำหรับบทช่วยสอนและคำแนะนำทั้งหมดเพื่อช่วยให้คุณดึงน้ำผลไม้ได้มากที่สุดจากข้อความแจ้ง Stable Diffusion อย่างที่ฉันพูดไป ฉันจะพยายามทำให้ดีที่สุดเพื่อให้อัปเดตนี้เมื่อมีคำแนะนำเพิ่มเติมและเข้าใจโมเดลมากขึ้น

ตัวสร้างพรอมต์การแพร่กระจายที่เสถียร

มีคำแนะนำรูปแบบเพิ่มเติมด้านล่าง แต่เท่าที่สร้างพร้อมท์ด้วยสายตา เครื่องมือ promptoMANIA น่าจะเป็นสิ่งที่ดีที่สุด

คุณสามารถเริ่มต้นด้วยการเพิ่มคำอธิบายของรูปภาพที่คุณพยายามสร้าง จากนั้นคุณสามารถเลื่อนลงมาเพื่อเริ่มเพิ่มรายละเอียดและเลียนแบบสไตล์ของศิลปินต่างๆ มีตัวเลือกนับร้อยให้เลือก โดยแต่ละแบบมีภาพตัวอย่าง

เมื่อคุณสร้างสตริงเสร็จแล้ว คุณสามารถคัดลอกและวางลงในเครื่องมือใดๆ ก็ตามที่คุณใช้เพื่อสร้างภาพ Stable Diffusion

สุดยอดคู่มือสำหรับผู้เริ่มต้น

Arman Chaudhry เผยแพร่งานนำเสนอ Google Docs สั้นๆ เกี่ยวกับสิ่งสำคัญของ SD

คู่มือนี้ครอบคลุมตัวปรับแต่งทั้งหมดที่ SD รองรับ แต่ยังแนะนำแนวทางปฏิบัติที่ดีที่สุดสำหรับการตั้งค่าความกว้าง/ความสูงและข้อผิดพลาดทั่วไปที่ควรหลีกเลี่ยง

Akashic Records

หากคุณต้องการเจาะลึก (หรือต้องการข้อมูลอ้างอิงสำหรับการวิจัย) – ที่เก็บข้อมูล SD Akashic Records มีทรัพยากรมากมายให้คุณศึกษา

คุณจะพบทุกอย่างตั้งแต่การใช้คำหลัก การปรับให้เหมาะสม ไปจนถึงคำแนะนำสไตล์ นอกจากนี้ยังมีการกล่าวถึงเครื่องมือหลายอย่าง นอกเหนือจากที่กล่าวถึงแล้วในบทความนี้

ชีทชีทพร้อมท์

หากคุณกำลังมองหาแรงบันดาลใจในการใช้สไตล์และเอฟเฟกต์แบบกำหนดเองกับข้อความแจ้งของคุณ ลองดูโพสต์ในบล็อกนี้จาก Moritz ครอบคลุมการเพิ่มเติมอย่างรวดเร็วสำหรับแนวคิด เช่น งานศิลปะ 2 มิติและ 3 มิติ รายละเอียด แสง สี และสภาพแวดล้อม

สไตล์ศิลปะและสื่อ

ลองดูไฟล์ Google เอกสารนี้สำหรับสไตล์และสื่อต่างๆ มากกว่า 100 แบบเพื่อใช้สำหรับการสร้างภาพ SD ของคุณ เอกสารนี้ใช้พรอมต์เดียว และพรอมต์ดังกล่าวถูกสร้างขึ้นในสไตล์ต่างๆ หลายร้อยแบบ เพื่อให้คุณสามารถทำซ้ำสไตล์เดียวกันในพรอมต์ของคุณได้

ทัศนศิลป์และสไตล์ศิลปิน

ตรวจสอบไฟล์ modifiers.json นี้บน GitHub สำหรับสไตล์เพิ่มเติมและคำแนะนำศิลปิน มีตัวปรับแต่งต่างๆ มากกว่า 200 แบบที่คุณสามารถนำไปใช้กับข้อความแจ้งของคุณ