「革ジャンで自転車に乗ったパンダ」も画像化

Google、文章から高精度画像を生成するAI「Imagen」。ポルノなどへの悪用考え一般公開せず

Image:Imagen(Google)

Google Researchが、入力された文章から詳細な画像を生成する人工知能システム「Imagen」を開発、プレプリント論文サイト「arXiv」に発表した。

フルネームを「Imagen diffusion model」と称するこのAIシステムは、Google ResearchのBrain Teamが開発したもので、チームいわく「これまでにないフォトリアリズムな描写力と、レベルの深い言語理解能力」を備えるとのこと。

Imagenは、たとえば「自転車に乗っている犬」や「オリンピックの400mバタフライで泳ぐテディベア」といったテキストを受け取り、それを解釈して対応する画像を生成する。画像生成AIは与えられた情報を元に、純粋なノイズ画像を開始点として徐々に変更を加えて、最終的にそれ以上「自転車に乗っている犬」にすることができないと判断できるレベルまで洗練させる。この仕組みにより、これまでの画像生成AIにあった、最初の推測段階で画像化の方向性を間違えてしまうことを防止しているわけだ。もちろん言語解釈能力の向上も図られている。

イーロン・マスクが共同設立した、人工知能を研究する非営利団体OpenAIもまた、テキストを解釈して画像化するAIとして「DALL-E」を開発し、一時話題になった。GoogleはImagenについて、「DALL-E 2」やRyan Moulton氏が開発する「VQ-GAN+CLIP」などといった他のテキスト画像化AIより高い能力を持たせるべく研究を行った。

まず、各テキスト画像化AIシステムを比較可能にするため、Googleのチームは「DrawBench」と称するベンチマークを作成した。これは簡単に言えば、各AIに入力される大量のテキストのリストで、そのテキストから各AIが出力した画像を人間が比較評価している。Googleは、これを用いて「出力したサンプルの品質、画像とテキストへの整合性の両方を横並びで比較したところ、Imagenの出力した画像の評価が高かった」と述べている。

Googleによる独自のテストなので、主観的な面もあるかもしれないものの、これまで他の画像生成AIに比べ抜きん出た性能だと見なされてきた、DALL-E 2の知覚品質と同等であるとの評価はかなり印象的だ。

Image:Imagen(Google)

ただ、GoogleはImagenを一般の誰でも利用できるようにはしていない。これはOpenAIが、DALL-E 2の将来の製品化を見据え、不適切とされる画像データをあらかじめ取り除いたデータセットを用いてAIを鍛えているのに対し、Googleはあえてそれらを含むデータセットを用いたためだ。つまり、DALL-E 2は誰が見ても安全な画像しか生成しないが、Imagenは場合によっては「職場閲覧注意」のラベル付けをしなければならないような画像も描き出す可能性があるということだ。また、生み出された画像がリベンジポルノや、誤った情報の拡散に悪用されないとも限らない。

GoogleはImagenのウェブサイトで、「テキストから画像への変換モデルのデータ要件から、研究者は大規模でほとんどがキュレーションされていない、ウェブからスクレイピングされたデータセットに大きく依存してきた」と述べ、実際ポルノ画像や、人種差別的であったりなど、社会的に有害な、不適切なコンテンツを含むLAION-400Mデータセットも使用したとしている。そして、「大規模言語モデルは、社会的バイアスなどをそのまま受け継ぎ、有害なステレオタイプや表現を生み出す可能性があるため、安全対策を講じない限りは、Imagenを一般利用のために公開しないという判断をした」と述べている。

とはいえチームは、いつかは一般の人々も自由にテキストを入力し、Imagenを利用できるようにしたいと考えているようだ。「今後はオープンアクセスにおけるリスクに対してバランスをとり、責任ある外部化のための枠組みを模索する」としている。記事執筆時点では、Imagenはウェブサイトで限られた文言の組み合わせを選んで、どのような画像が生成されるかを確認できるようにしている。油絵風または写真風、動物の種類、着用している衣服、行動の種類、背景の場面などを選ぶことができるので、作った文章からどんな画像が生成されるのか、ご興味があるなら一度試してみると良いかもしれない。

関連キーワード: