生成には「GPUパワーと忍耐」も必要
Stability AI、「Stable Video Diffusion」発表。静止画から超ショート動画を生成
AIスタートアップのStability AIは11月27日、「Stable Video Diffusion」をリリースした。同社のStable Diffusionといえば、入力されたテキストから画像を生成するAI text-to-imageモデルだが、新しいStable Video Diffusion(SVD)は、任意の静止画像を約2秒の短い動画に変換する。
SVDは、14フレーム(SVD)、25フレーム(SVD-XT)の動画を生成する2種類のAI image-to-videoモデルとしてリリースされており、精製する動画のフレームレートは3~30fpsのあいだでカスタマイズ可能だ。SVDは約2秒、SVD-XTは約4秒のmp4ファイルとして576×1024解像度の動画を出力する。
ただし、実際にこれを使って動画を生成するのには、しかるべき性能を持つGPUと、ゆとりある心が必要だ。たとえばGPUにNVIDIA RTX 3060を使った実験では、14フレームの短い動画を出力するのに約30分の時間がかかると伝えられている。
AI・マシンラーニング向けデータセット共有プラットフォームのHugging Faceなどを使えば、クラウド上でこのAIモデルをはるかに高速に実行できるので、「ちょっとお試し」程度であればそうしたサービスを利用するのも良いだろう(サービスによっては料金が必要かもしれない)。
SVDはその研究論文で5億8000万件、総時間長212年分の注釈付きビデオクリップをモデルの強化に使ったとしている。ただ、具体的にどのデータセットを使ってAIを鍛えたのかは明かしていない。
現在、Stability AIはこの技術をさらに推し進めて、元となる画像のかわりにテキストプロンプトから短いビデオクリップを生成可能にするtext-to-videoモデルの実現に取り組んでいるという。
なお、静止画から動画を生み出すAIモデルはこれが初めてというわけでもなく、Meta、Google、Adobeや巨大企業から「スパゲッティを食べるウィル・スミス」のAI生成動画で話題になったアリババ傘下DAMO Vision Intelligence LabのModelScopeといったものまで、複数が開発中だ。
- Source: Stability AI
- via: Ars Technica