GPT-4oネイティブのAI画像生成機能

GPT-4oに画像生成「Image Generation」追加。DALL・Eより高精度うたう

image:OpenAI

OpenAIは2024年5月に発表し、もうすぐ1周年を迎えようとしているGPT-4oに、ネイティブ・マルチモーダルな画像生成機能を追加した。

この機能は現在Pro、PrusといったChatGPTの有料 / 無料ユーザー、あるいは動画生成AIのSora経由でも利用できるが、まもなくビジネス向けのEnterprise、学術向けのEdu、APIを通じても利用可能になる予定だ。なお、ユーザーはDALL・E 3を指定して引き続き使うこともできる。

これまで、ChatGPTでは独立したAI生成画像モデルのDALL・E3を呼び出して利用できていた。今回の「4o Image Generation」は、テキストやコードを出力するGPT-4oモデルに組み込まれ、ネイティブに画像も扱えるようになっている。DALL・E 3と4o Image Generationの違いは、前者がDiffusion(拡散) Model方式であるのに対し、後者はAutoregressive(自己回帰) Modelを採用しているところだ。

OpenAIは、4o Image Generationでは「画像内のテキストを正確にレンダリングし、看板、メニュー、招待状、インフォグラフィックの作成を可能にする」「複雑なプロンプトに正確に従い、詳細な構成でも高い忠実度を維持する」「以前の画像とテキストを基にして、複数のインタラクションにわたって視覚的な一貫性を確保する」「フォトリアリズムから様式化されたイラストまで、さまざまな芸術スタイルをサポートする」ことを目的として開発したと述べた。

image:OpenAI

OpenAIが示した生成例からわかるとおり、4o Image Generationは指定した文言を正しく画像内に反映する能力があり、ユーザーとの対話を繰り返し、複数の指示を理解し、関連性を維持して、画像を作り替えていくことができる。

また、GPT-4oはユーザーがアップロードした画像を学習して画像生成に役立てたり、テキストと画像に関する知識をリンクさせてより効率的に作業したり、フォトリアリズムやさまざまなスタイルの画像を作成することができる。

Image:OpenAI

GPT-4oネイティブの画像生成機能は、昨年5月という早い段階でプレビューされていたが、その後何らかの理由により、これまで正式公開はされてこなかった。だが、今月半ばにはGoogleがGemini 2 Flash ExperimentalモデルをGoogle AI StudioユーザーとGoogle Gemini APIに無料公開するといった動きもあり、OpenAIは4o Image Generationを公開する決断に至ったのかもしれない。

4o Image Generationが出力する画像に対しては、すでにそれを試したユーザーらから「Oh Really?」と感嘆?の声も聞こえてきている。OpenAIが例として示した生成結果も非常にリアルで、(おそらく特に優秀な生成結果を載せているからでもあるだろうが)そうとは知らずに見せられれば、すぐにはAI画像と気付くのが難しいはずだ。

Image:OpenAI

OpenAIは、GPT-4oの画像生成機能がどのようなデータを使って強化学習したのかを詳しくは説明していないが、おそらくはこれまでの慣例どおりウェブ上からかき集めた多くのアートやその他画像データを使用していると思われる。そして、その一部には著作権で保護されているはずのデータも含まれていると思っておいて間違いはないだろう。将来的にその証拠が見つかれば、著作権者から新たな訴訟が起こされる可能性も否定はできない。

また、GPT-4oによって生成されたすべての画像には、それがAI生成によるものであることを識別するためのC2PAメタデータが含まれているほか、OpenAIは引き続きコンテンツポリシーに違反するリクエストをブロックすると説明している。だが、OpenAIは「4o Image Generationによる公人を含む画像の生成」は拒否せず、政治的な言論や風刺画像の作成に4o Image Generationを使うことも認めている。このあたりは議論がおこる可能性もあるかもしれない。

関連キーワード: