LAION 5Bとは？作られた背景や安全性について紹介

AIを使った開発に従事するエンジニアの中には、LAION 5Bというデータセットの名称を耳にしたことがあるという方が少なくないのではないでしょうか。もっとも、それがどういったものか詳しく理解している人は意外と少ないかもしれません。そこで以下では、LAION 5Bの概要を紹介した上で、作られた背景や安全性についても併せて見ていくことにします。

▼もしAIを使った開発を検討している場合は、Automagica Labで無料の開発相談をしてみませんか？

LAION 5Bとは

LAION 5Bというのは、Large-scale Artificial Intelligence Open Network （LAION）という非営利団体が公開している、約58億5000万個もの画像とテキストのペアによって構成されている大規模なデータセットです。

このデータセットは、インターネット上にある数々のウェブページから画像のURLとそのaltテキストを抽出した上で、テキストと画像をつなぐCLIPと呼ばれる技術を使って品質をフィルタリングしたものになっています。

なお、CLIPは、OpenAIによって開発されたニューラルネットワークで、画像とテキストの類似度を測る機能を備えています。LAION 5Bの主な用途は、画像生成AIの学習です。

例えば、Stable Diffusionという、ハイクオリティな画像を生成できるAIは、その学習のためにLAION 5Bの一部を使用しています。画像をノイズに変換する逆向きのプロセスを学習してその逆向きのプロセスを辿ることで、Stable Diffusionは、テキストや画像から新しい画像を生成することができるのです。

Stable Diffusion Waifu Diffusionについて解説。

LAION 5Bは、データセットの利用者のために、様々な機能を提供しています。例えば、データセットを簡単にダウンロードすることができるように、PythonやRといった言語で書かれたライブラリが用意されています。

また、データセットの中身をブラウザで見ることができるだけでなく、目的に応じて色々なサブセットを作成することが可能です。さらに、データセット内の画像やテキストを検索できるツールが提供されており、CLIPを活用して類似度の高い画像やテキストを検出することもできます。

そのほかには、データセットに含まれる画像には透かしの入ったものやNSFW（Not Safe for Work）と呼ばれる閲覧注意の画像があるのですが、LAION 5Bを使えば、これらの画像にタグを付けてユーザーが簡単に除外できるようになります。

このようにLAION 5Bは、画像生成AIの学習において非常に有用なものですが、その一方で利用にあたっては利用規約や倫理規範をきちんと守らなければなりません。ルールを遵守せずに使用した場合には、思うような結果が得られない恐れがありますので、使う前には規約や規範の内容を正しく理解しておくようにしましょう。

LAION 5Bが作られた理由

LAION 5Bが作成された理由は、大きく以下の2つにまとめられます。まず1点目は、マルチモーダルモデルによる大規模なトレーニングと、パブリックなインターネットからクロールされたキュレーションされていない大規模なデータセットの処理についての研究や実験を民主化するというものです。

また、2点目は、従来はオリジナルの大規模なデータセットにアクセスできるユーザーのみに限られていた言語ビジョンモデルを用いた多言語大規模トレーニングや研究の可能性を、より幅広いコミュニティに対して拡大するという点です。

LAIONは、画像とテキストのペアによってトレーニングされた大規模なマルチモーダルモデルが、高度のパフォーマンスを発揮していたものの、モデルの構築に必要な大規模なデータセットが一般には利用困難という問題に直面していました。この問題を解決するために、LAIONは、自動的にインターネットからクロールされたデータを処理して、ハイクオリティな画像とテキストのペアのデータセットを作成することにしたのです。

それによってLAIONは、大規模なマルチモーダルモデルのトレーニングと、公開されているインターネットからクロールされたキュレーションされていない大規模なデータセットの処理に関する研究と実験を、より多くの人に可能にすることを目指しました。

続いて、LAIONは、言語ビジョンモデルを多言語化することに注目しました。ここで言語ビジョンモデルというのは、画像とテキストの両方を理解できるモデルで、画像生成や画像検索といったタスクに応用可能です。

しかしながら、言語ビジョンモデルのトレーニングには、大量の言語テキストを含む大規模なデータセットが必要であるにもかかわらず、そういったデータセットはあまり存在しませんでした。そこで、LAIONは、LAION 5Bにおいて、100以上の英語以外の言語テキストを含んだ画像とテキストのペアを収集したのです。

それによって、LAIONは、これまで独自の大規模データセットにアクセスできる人だけに限定されていた言語ビジョンモデルの多言語大規模トレーニングと研究の可能性を、幅広いコミュニティに拡大することを目指したのです。

LAIONの安全性

LAIONのデータセットには、安全性や倫理性に問題があることが指摘されています。まず、LAION-5Bには、英語を除いた100以上の言語のテキストを含む画像とテキストのペアが収集されているのですが、その中には性的・暴力的な画像や政治的な画像といった不適切な画像やテキストが多く含まれています。

こういったものは、データセットのクオリティを低下させるのみならず、AIのトレーニングや生成にネガティブな影響を及ぼしかねません。例えば、LAION-5Bを使用して画像生成AIのトレーニングを実施した場合、ユーザーが入力したテキストに応じて、不適切な画像を生成するケースがあります。

また、LAION-5Bに含まれる画像やテキストは、特定の価値観や文化に基づいて収集されたものではなく、インターネット上にある多様なソースからランダムに抽出されたものであるため、バイアスや偏見を含んでいる可能性もあるのです。

次に、Stanford Internet Observatory (SIO)という団体の調査によって、LAION-5Bには児童の性的虐待画像が含まれていることが明らかになりました。SIOは、PhotoDNAというハッシュツールを用いて、LAION-5Bに含まれる画像のURLを既知のCSAMリストと照合し、少なくとも1008件のCSAMが存在していることを確認しています。

SIOは、米国の国立行方不明・搾取児童センターとカナダ児童保護センターにこれらの画像のURLを報告し、画像の削除を要請しました。その上で、ゼロトレランスポリシーを掲げ、LAION-5Bを一時的にインターネット上から削除して再公開する前に安全性を確認すると発表したのです。

最後に、LAION-5Bには、リンク先画像の著作権などが曖昧であるという問題があります。このデータセットは、インターネット上のウェブページから画像のURLやそのaltテキストを抽出していることから、著作権や肖像権といった法的な問題については、LAIONは責任を負わないとしています。

しかしながら、LAION-5Bに含まれる画像の中には、各種のSNSに投稿されたデータや、著名な漫画家やイラストレーターの作品等の明らかに著作権や肖像権が存在する画像が少なくありません。これらをAIのトレーニングや生成に利用することは、著作権法や肖像権法等の知的財産権を侵害する可能性があります。

例えば、LAION-5Bを使って画像生成AIをトレーニングすると、入力されたテキストに応じて、著作権や肖像権を侵害する画像が生成される場合があります。また、データセットに含まれる画像をダウンロード・再配布・改変等することも、法令違反になるおそれがあるのです。

LAION 5Bについて理解を深めよう

以上で見てきたように、LAION 5BはAIのトレーニングに役立つ画期的なデータセットですが、その一方で使用するにあたっては安全性の面で注意しなければならないポイントがいくつかあります。それらを頭に入れた上で使うようにすればAIの開発をより効率的にできるようになるので、そういった作業に携わる方はここで紹介した内容をぜひ理解しておくとよいでしょう。