安定拡散: チュートリアル、リソース、およびツール

公開: 2022-09-08

リソースと情報
- Stable Diffusion モデルのトレーニングに使用された画像は?
- 安定拡散の例とプロンプトはどこにありますか?
- 公式の Discord サーバーはありますか?
ツールとソフトウェア
- Windows/Linux で Stable Diffusion を実行するには?
- Mac で Stable Diffusion を実行するには?
- 安定拡散モデルの大きさは?
チュートリアルとガイド
- 安定拡散プロンプトビルダー
- 究極の初心者向けガイド
- アカシックレコード
- 迅速なチートシート
- アートスタイルと媒体
- ビジュアル & アーティストスタイル

8 月 22 日、Stability.ai の創設者である Emad Mostaque は Stable Diffusion のリリースを発表しました。この AI ジェネレーティブアートモデルは、DALL·E 2 などよりも優れた機能を備えており、オープンソースプロジェクトとしても利用できます。リリースから数週間、人々は Stable Diffusion に全力を注ぐ努力やプロジェクトを断念しました。

OpenAI が DALL・E 2 を発表したとき、私はすでに非常に興奮しており、幸運にも早期アクセスを得ることができました。しかし、ここ数日 Stable Diffusion をいじってみた結果、DALL·E 2 は Stable Diffusion がもたらすものには及ばないと言えます。

また、オープンソースであるため、アクセスしやすくなっています。 Lexica のようなサイトは、わずか 2 週間で、AI が生成した 1,000 万を超える画像をアーカイブしました。また、開発者が Stable Diffusion を Figma、Sketch などの最も人気のあるグラフィックデザインツールと統合するための着実な進歩を遂げることを期待しています。外出先で高品質のアートを生成する機能は前例のないものです。

この記事の目的は、Stable Diffusion をすばやく習得するのに役立つ、興味深い関連チュートリアル、リソース、およびツールをすべてリストすることです。今後数か月で、Stable Diffusion から最大限の可能性を引き出すことに特化したプロジェクトが大量に流入することになると思います。それに応じて、この記事を更新し続けるために最善を尽くします。

チュートリアル– このセクションでは、 「Stable Diffusion の使用方法」などのトピックに重点を置いています。 .
リソース– このセクションでは、「安定拡散とは」などのクエリに焦点を当てています。
ツール– このセクションは、Stable Diffusion を使用できるツールに基づいています。

それでは、これ以上苦労せずに、基本から始めましょう。

リソースと情報

Stable Diffusion について多くの人が最初に抱く質問の 1 つは、このモデルが公開されているライセンスと、生成されたアートが個人および商用プロジェクトで自由に使用できるかどうかです。

Stable Diffusion が使用しているライセンスはCreativeML Open RAIL-Mで、Hugging Face で全文を読むことができます。簡単に言えば、「Open Responsible AI Licenses (Open RAIL) は、動作使用制限が常に適用される限り (派生物を含む)、AI アーティファクトの派生物への自由でオープンなアクセス、再利用、下流への配布を許可するように設計されたライセンスです。」 .

このライセンスの詳細な説明は、この BigScience ページにあります。

Stable Diffusion モデルのトレーニングに使用された画像は?

AI モデリングは、特定の目的のために機械学習アルゴリズムを作成およびトレーニングする手段です。この場合、ユーザープロンプトから画像を生成する目的。

Stable Diffusion がどの画像を使用したか知りたい場合は、Andy Baio と Simon Willison が、Stable Diffusion モデルのトレーニングに使用された 1,200 万を超える画像 (合計 23 億から) を徹底的に分析しました。

重要なポイントの一部を次に示します。

Stable Diffusion のトレーニングに使用されたデータセットは、LAION によってまとめられたものです。
彼らがサンプリングした 1,200 万枚の画像のうち、合計サンプルサイズの 47% が 100 のドメインからのもので、Pinterest はデータセット全体の 8.5% を占めていました。その他の上位のソースには、WordPress.com、Blogspot、Flickr、DeviantArt、Wikimedia が含まれます。
Stable Diffusion は、人々の名前 (有名人であろうとなかろうと) からアートを生成する使用を制限しません。

このモデルがどのように進化するか、また、企業がメディアを提供して Stable Diffusion の成長を支援する意思があるかどうかを確認するのは興味深いことです。

安定拡散の例とプロンプトはどこにありますか?

Stable Diffusion が DALL・E のようなものと異なる点の 1 つは、Stable Diffusion を最大限に活用することです。その修飾子について学ぶ必要があります。特に、1 つの修飾子はシードと呼ばれます。 Stable Diffusion で画像を生成するたびに、その画像にシードが割り当てられます。これは、その画像の一般的な構成として理解することもできます。そのため、特定の画像を楽しんで、そのスタイルを再現したい (または少なくとも可能な限り近づけたい) 場合は、シードを使用できます。

例とそれらの画像を生成するために使用されるプロンプトを見つけるための最適なプラットフォームは、1,000 万を超えるサンプルアートワークをアーカイブしている Lexica です。各アートワークには、完全なプロンプトとシード番号が含まれており、自分で再利用できます。

公式の Discord サーバーはありますか?

はい！

[https://discord.gg/stablediffusion] にアクセスしてアクセスできます。サーバーは、サーバー自体からのイメージの生成をサポートしなくなったことに注意してください。この機能は、ベータプログラムの一部として利用可能でした。 Discord サーバーから Stable Diffusion を使用したい場合は、Yet Another SD Discord Bot などのプロジェクトを調べるか、Discord サーバーにアクセスして試してみてください。

ツールとソフトウェア

Stable Diffusion で作成されたアートを見たり、魅了されたりしたことがある場合は、自分で試してみようかどうか迷っているかもしれません。答えは「はい」です。Stable Diffusion を無料で試す方法は複数あり、ブラウザやマシンから試すこともできます。

そのための公式な方法は、DreamStudio プラットフォームを使用することです。

誰でも無料で登録でき、新規アカウントには無料の 200 トークンが付与されます。これらのトークンは、複雑さを増さず、512×512 のデフォルト設定を超えて高さと幅を変更しない限り、200 世代には十分です。しかし、複雑さを増すと、トークンがすぐに不足してしまう可能性があります。

Windows/Linux で Stable Diffusion を実行するには?

現在、Stable Diffusion をローカルで実行するための最も一般的なソリューションは、GitHub で入手できる Stable Diffusion Web UI リポジトリです。 Gradio GUI に基づいており、これは DreamStudio インターフェースに限りなく近く、あらゆる制限にさようならを振ることができます。

Stable Diffusion の PC 要件は何ですか?

– 4GB (多いほど望ましい) VRAM GPU (Nvidia のみの公式サポート!)
– AMDユーザーはこちらをチェック

Web UI リポジトリを使用することを忘れないでください。 Hugging Face から自分でモデルをダウンロードする必要があります。インストールガイド (Windows) をよく読んで、正しくセットアップしてください。 Linux の場合は、このガイドを確認してください。また、Google Colab で起動して実行することもできます – こちらのガイド.

Windows または Linux で SD を実行する代わりの方法はありますか?

安定した拡散 UI が人気を集めています (Windows および Linux ではワンクリックインストール)。

Mac で Stable Diffusion を実行するには?

Charlie Holtz は、Mac (M1 および M2) ユーザー向けのワンクリックインストーラーである CHARL-E をリリースしました。

特徴:

必要なウェイトをすべて自動的にダウンロードします。
シード番号と DDIM サンプリングを設定できます。
生成された画像はギャラリーに保存されます。

代替手段として考慮すべき拡散ビーもあります。

安定拡散モデルの大きさは?

上で述べたように、Stable Diffusion モデルをダウンロードする必要があります。リンクはここにあります。 Hugging Face でアカウントを作成する必要があります。その後、ファイルを表示およびダウンロードする前に、モデルのライセンス条項に同意する必要があります。

人々が抱く疑問の 1 つは、 「モデルは 20 億枚以上の画像から作成されているにもかかわらず、サイズが 4GB しかないのはなぜですか?」というものです。 .

そして、この質問に対する最良の答えは、Hacker News ユーザーの juliendorra からのものです ⟶

ここが興味深い部分です。生成されるすべての画像は、4 GB 未満のモデル (ニューラルネットワークのトレーニング済みの重み) から派生しています。

ある意味では、何千億もの可能な画像がすべてモデルに保存され (それぞれが多次元潜在空間のベクトル)、必要に応じてピクセルに変換されます (この空間で単語をベクトルに変換する方法を知っている言語モデルによって駆動されます)。 )

それは決定論的であるため（ランダムシードが含まれるまったく同じリクエストパラメーターが与えられた場合、まったく同じ画像が得られます）、圧縮（または少なくともエンコードデコード）の形式でもあります。100万枚の画像のパラメーターを送信できます比較的小さなテキストファイルとして、ユーザー側で再作成できます。

チュートリアルとガイド

次のセクションでは、Stable Diffusion のプロンプトから最大限の力を引き出すのに役立つチュートリアルとガイドに専念しています。私が言ったように、より多くのガイドが利用可能になり、モデルのより良い理解が得られるように、これを更新し続けるために最善を尽くします.

安定拡散プロンプトビルダー

以下に追加のスタイルガイドがありますが、視覚的にプロンプトを作成する限り、promptoMANIA ツールがおそらく最高です。

作成しようとしている画像の説明を追加することから始めて、下にスクロールして詳細を追加し、さまざまなアーティストのスタイルを模倣することができます. 何百ものオプションから選択でき、それぞれに視覚的なプレビューが表示されます。

文字列の作成が完了したら、それをコピーして、使用しているツールに貼り付けて、Stable Diffusion 画像を生成できます。

究極の初心者向けガイド

Arman Chaudhry は、SD の要点に関するコンパクトな Google ドキュメントプレゼンテーションを公開しました。

このガイドでは、SD がサポートするすべての修飾子について説明しますが、幅/高さの設定に関するベストプラクティスと回避すべき一般的な間違いも推奨しています。

アカシックレコード

深く掘り下げたい場合 (または研究のための参考資料が必要な場合) – SD Akashic Records リポジトリには、研究するための驚くべき量のリソースがあります。

キーワードの使用法から迅速な最適化、スタイルガイドまで、すべてを見つけることができます。この記事で既に言及したもの以外にも、いくつかのツールについて言及されています。

迅速なチートシート

プロンプトにカスタムスタイルと効果を適用するためのインスピレーションを探している場合は、Moritz のこのブログ投稿をチェックしてください。 2D & 3D アート、詳細、照明、色、環境などの概念の迅速な追加について説明します。

アートスタイルと媒体

SD 画像の生成に使用する最大 100 以上の異なるスタイルと媒体については、この Google ドキュメントファイルを確認してください。このドキュメントは単一のプロンプトに基づいており、そのプロンプトは何百もの異なるスタイルで生成されているため、プロンプトで同じスタイルを複製できます。

ビジュアル & アーティストスタイル

追加のスタイルとアーティストの推奨事項については、GitHub のこの modifiers.json ファイルを確認してください。プロンプトに適用できる 200 を超えるさまざまな修飾子です。