Stable Diffusion Waifu Diffusionについて解説。

Stable DiffusionのモデルであるWaifu Diffusionは、キャラクターの画像を生成するための技術です。人工知能の研究成果を応用したもので、キャラクターの顔や髪型、服装などを自由に設定できます。キャラクターの特徴や好みを入力するだけで、簡単に画像を作成できるのが特徴です。今回は、Waifu Diffusionの基本情報や商用利用の可否、使い方などについてご紹介します。

▼もしAIを使った開発を検討している場合は、Automagica Labで無料の開発相談をしてみませんか？

Waifu Diffusionとは

基本情報

Waifu Diffusionとは、高品質なアニメ画像をテキストから生成できる画像生成AIです。Stable Diffusionモデルの一つであり、潜在拡散モデルと呼ばれる手法を用いています。潜在拡散モデルとは、入力データを低次元の潜在変数に圧縮し、その潜在変数から元のデータを復元するモデルです。2022年12月に初版が公開されて以来、さまざまなバージョンがリリースされています。バージョンごとに微調整や改良がおこなわれており、画像品質や多様性が向上しているのが特徴です。

Waifu Diffusionでは、専用のVAE（Variational Autoencoder）が活用されています。VAEとは、変分オートエンコーダーという機械学習の手法です。オートエンコーダーは、入力データを圧縮して潜在変数と呼ばれる低次元の表現に変換し、それを元のデータに復元するモデルです。VAEは、オートエンコーダーの潜在変数に確率分布を仮定し、その分布からサンプリングした潜在変数をデコーダーに入力することで、データの生成や変換を可能にしています。

VAEの利点は、潜在変数の確率分布を学習し、データの特徴や変化を捉えやすくなることです。例えば、アニメのキャラクターの画像をVAEで学習すると、潜在変数の各次元が髪の色や目の形などの特徴に対応することがあります。このように、潜在変数を操作すると、画像の生成や変換を自由におこなえるのです。

Waifu Diffusionの専用のVAEは、Stable Diffusionと組み合わせて使われます。Stable Diffusionは、画像をノイズに変換する逆算プロセスと、ノイズから画像に復元する順算プロセスを繰り返し、高解像度の画像を生成するモデルです。Waifu Diffusionは、Stable DiffusionをDanbooruという二次元イラストのデータセットで再学習したモデルで、アニメ風の画像を生成するのに適しています。画像の明るさや色味を調整したり、不自然な部分を修正したりすることで、画像の品質を向上させます。

Waifu Diffusionは、主にアニメやマンガのキャラクター画像をテキストから生成するのに使われています。例えば、自分のオリジナルキャラクターのイメージを具現化したり、既存のキャラクターの新しい表情や衣装を作ることが可能です。娯楽や趣味にも利用され、好きなキャラクターの画像を楽しんだり、自分の好みに合わせてカスタマイズしたりできます。Stable Diffusionモデルの仕組みや性能を理解したり、他の画像生成モデルと比較するなど、学習や研究に利用されているケースもあるようです。

商用利用・著作権

Stable Diffusionの利用規約によると、モデルを使用して生成された画像については、運営元のStability AIは何ら権利を行使しないとしています。つまり、生成画像の著作権はユーザーに帰属し、商用利用も可能です。ただし、生成画像の著作権に関する法的な確定はまだなされていないため、商用利用する際は、自己責任で十分に注意してください。

画像の生成や利用には、著作権法や不正競争防止法などの法的規制が関係します。画像の作者や所有者の権利を守りつつ、公正な使用を促進することを目的としている法律です。また、Stable Diffusionでは、第三者の権利を侵害するような画像や不適切な画像を生成・利用することは禁止されています。生成・利用が禁止されている画像とは、以下のようなものです。

他人の著作物や商標を無断でコピー、加工、配布、公衆送信などした画像
他人の肖像権やプライバシー権を侵害する画像（本人の同意なく撮影、公開、利用した画像など）
他人の名誉や信用を毀損する画像（虚偽や中傷の内容を含む画像など）
公序良俗に反する画像（わいせつ、暴力、差別などの内容を含む画像など）

これらの画像を生成・利用した場合、権利者から損害賠償請求や差止請求などの民事訴訟を起こされる可能性があります。また、場合によっては、著作権法違反や不正競争防止法違反などの刑事罰の対象となる可能性もあるため注意が必要です。

法令違反を防ぐためには、画像の利用に関していくつか注意するポイントがあります。まず、他人の画像を利用する場合は、権利者の許可を得るか、法律で認められている場合であることを確かめましょう。自分で画像を生成する場合は、他人の画像や権利との類似性や侵害性をよく調べます。画像の内容は、公序良俗に沿っており、他人の名誉や信用を傷つけないものかよくチェックしてください。画像の利用目的や範囲をはっきりさせ、権利者との契約を守りましょう。

Waifu Diffusionの使い方

Waifu Diffusionは、自然言語やbooruタグと呼ばれるキーワードを入力すると、それに合ったイラストを生成します。ここでは、Waifu Diffusion 1.5を使うための基本的な手順を解説します。Waifu Diffusion 1.5を使うためには、まずStable Diffusion web UI（AUTOMATIC1111版）をインストールすることが必要です。

Stable Diffusion web UI（AUTOMATIC1111版）とは、Stable Diffusionという画像生成AIのモデルを簡単に操作できるウェブインターフェースの一種です。AUTOMATIC1111という方が開発しています。

次に、Waifu Diffusion 1.5のモデルファイルと補助エンベッディングファイルをダウンロードし、適切な場所に配置してください。モデルファイルは、学習済みのモデルの重み（モデルが学習した結果として得られる数値）と設定を保存したファイルです。補助エンベッディングファイルは、アニメ風画像の生成品質を向上させるために必要なファイルです。

プロンプトによって、画像のスタイルや年代を指定できます。補助エンベッディングファイルを利用すると、より自然で鮮明な画像が生成できます。web UIを起動した後は、モデルとエンベッディングを選択しましょう。最後に、プロンプトにテキストとタグを入力して、イラストを生成します。

希望通りの画像を生成するためのコツは、プロンプトに適切な自然言語やbooruタグを入力することです。booruタグは、danbooruというイラストサイトで使われているキーワードです。

Waifu Diffusionは、danbooruのタグによく対応しているため、danbooruからタグをコピペすると良い結果が得られます。タグの数や種類によって、画像の品質が変わるため、タグの使い方がポイントです。タグが少なすぎると、画像が曖昧になり、逆にタグが多すぎると、画像が不自然になります。タグが矛盾していると、画像が生成できない場合もあるため、タグのバランスを見つけるのが重要です。

また、Waifu Diffusionには、年代タグや審美性タグという特別なタグがあります。イラストの時代感を表すタグで、oldest、old、new、newestの4種類です。例えば、oldestというタグを使うと、1995年から2010年の間に作られたアニメのような画像が生成されるのが特徴です。審美性タグは、イラストの美しさを表すタグで、exceptional、high、medium、low、very_lowの5種類があります。これらのタグを使うと、イラストの雰囲気や品質を調整できます。

Stable Diffusion Waifu Diffusionまとめ

Waifu Diffusionは、機械学習の技術を用いて、自分の好みのキャラクターを生成する方法です。複数のキャラクターの特徴を組み合わせて、新しいキャラクターを作り出すこともできます。ただし、利用する際には、著作権法などの法律を遵守し、正しく使うことが求められます。Waifu Diffusionで自分だけのキャラクターを作り、趣味や研究に活用してみてはいかがでしょうか。