ゲーム開発の膨大な作業が不要になる?

AIが『Doom』を生成。Googleとテルアビブ大の最新研究「GameNGen」

Image:Google Research

Googleは、AI画像生成技術がゲームをリアルタイムに生成し実行する、まったく新しい方法を提供しようとしている。

ある程度規模の大きなゲームを大雑把に説明すれば、3D空間にアセットを配置してマップを作り、そこに敵キャラNPCやを配置して、プレイヤーが操作するメインキャラクターと戦ったり、ストーリー展開のための会話を行うように設定されている。そしてこれらすべての構築や管理実行を行うのがゲームエンジンの役割だ。

ところが、いまGoogleとテルアビブ大学が協力する研究チームが共同で行っているのは、ゲームエンジンのかわりに生成AIモデルを使って、1993年に発売されたPC用シューティングゲームの名作『Doom』をシミュレートしようというものだ。

研究チームは「GameNGen」と称するAIモデルを作成し「リアルタイムで動作するニューラルモデルが、複雑なゲームを高品質でシミュレートできるか」「その答えがイエスであることを実証するため、最も代表的なビデオゲームの一つである『Doom』をニューラルネットワークで実行できることを示す」としている。

GameNGenは、オープンソースのAI画像ジェネレーターであるStable Diffusionバージョン1.4をベースとして作られた映像生成モデルで、既存のDoomプレイ映像を約9億フレーム使用して鍛え上げられた。またこの膨大な映像を取得する作業には、本物のDoomをプレイするAIモデルが別途開発され使用された。

GameNGenによるゲームプレイの映像は、まるで本物のDoomのように見える。しかし実際にやっていることは、プレイヤーがゲーム操作の入力を行うところは通常のゲームと同じだが、その入力に応じてAIが画面をリアルタイムに生成しつつ、ゲームのプレイ状態を次々に更新していく、という処理だ。

こうした「ゲームループ」処理によって、コンピューターは画面上の絵が変化するのを見せているだけであるにもかかわらず、プレイヤーには、あたかも自分がインタラクティブなゲームの世界にいるかのように見えている。GameNGenのニューラルネットワークは、たとえば体力や弾薬残量の数値を集計し、敵への攻撃、オブジェクトへのダメージ、ドアの開閉など、複雑なゲーム状態の更新を行うことができる。

しかし研究者たちは、このアプローチにはいくつかの明確な限界があることを認めている。それは「このモデルは3秒強の履歴にしかアクセスできない」という点だ。そのため、映像を見ていると敵やマップオブジェクトが突然現れ、数秒後には消えてなくなるケースが発生している。

ただ、それにもかかわらず、GameNGenはレンダリングされた各画像からプレイヤーの弾薬、健康状態、武器、位置を推測でき「ゲーム・ロジックが非常に長い時間にわたって持続する」ことを研究者らは発見した。ゲーム状態の一部はスクリーン・ピクセルを介して保持されるが(弾薬や体力の残量、使用可能な武器など)、このモデルは意味のある一般化を可能にする強力なヒューリスティックを学習している可能性が高い」と論文には書かれている。

研究者らは、GameNGenには生成AIによってゲーム開発に変革をもたらす可能性があるかもしれないと考えている。論文には「たとえばコードを記述せずとも、フレームセットを新しいプレイ可能なレベルに変換したり、例となる画像に基づいて新しいキャラクターを生成したりすることが可能になるかもしれない」 「ビデオゲームは人間によってプログラムされているが、GameNGenは、ゲームがコードではなくニューラルネットワークの重みであるという新しいパラダイムの一端を示す概念実証なのだ」 と述べられている。

ちなみに、AIモデルを使ってリアルタイムにビデオ ゲーム映像を生成するというのは、まったく新しいアイデアというわけではない。NVIDIAのJensen Huang CEOは3月に、おそらくやや誇張が入っていたと考えられるが、今後5~10年以内にほとんどのビデオゲームはAIによってリアルタイム生成できるようになるだろうとの予測を述べていた。

関連キーワード: