YouTube配信や自作ゲームに使うBGMを生成できる?

テキストからCD音質の音楽やサウンドを生成するAIツール「Stable Audio」発表

Iamge:Ole.CNX/:Shutterstock.com

テキストから画像を生成するAIツール「Stable Diffusion」の開発に資金提供したStability AIが、音楽生成AIツール「Dance Diffusion」の開発で知られるHarmonaiとともに、テキストからCDクオリティのサウンドを作り出せるという新しいAI音声生成ツール「Stable Audio」を発表した。

ウェブサイトで試聴できるサンプルサウンドには、いくつかのジャンルで音楽トラックを生成したもの、単一の楽器だけで演奏したものや、音楽ではなく背景音として利用できそうな効果音のサンプルがいくつか公開されている。

たとえば「Epic Trailer music intense tribal percussion and brass」を再生してみると、まさに映画の予告編にありそうな、デカいドラムの連打とそれに続く管弦楽団の緊迫感ある(それでいてまったく耳に残らない)音楽が流れる。

一方、「death metal power chord guitar riffs fast metal drums」で生成された音楽サンプルは、押し寄せる轟音の壁のようなサウンドが、確かにデスメタル~グラインドコアっぽくはある。音質についてはせいぜい電話の向こうで演奏しているのか、AMラジオのレベルのもので、CD音質かと聞かれれば少々返答に困るところだ。

ただ、デスメタルと呼ばれる音楽ジャンルの草創期においては、このサンプルサウンドをさらに歪めて音の分離を悪くしたような、ノイズの塊ばかりの作品が数多くCDとしてリリースされていた。そういったことを考えると、まあまあ生成文に従ったサウンドが「CD音質」で出力されていると言えなくもない。

評価の方向性がおかしくなってきたので軌道修正すると、その他のブルーグラスやローファイ・ヒップホップなどと書かれたサンプル音楽は、音質的にも十分にCMやショート動画のBGMにつかえそうな感じだ。

また、ピアノ、ドラムスなどの楽器単体をモチーフに出力されたサンプル音に関しては、十分にそのように聞こえるし、比較的音質も良く生成されている。効果音として紹介されている「航空機のパイロットがインターコムで話している」音声や、「人の話声で賑やかなレストラン」といったサンプル音声も、注意して聞かなければ不自然さは気にならないレベルだ。

Image:Stability AI

AIモデルのトレーニングにあたり、Stabilityはストック音楽サービスのAudioSparxと提携し、「音楽、効果音、単一楽器などの音声ファイル80万件以上と、それに対応するテキストメタデータ」で構成されるデータセットのライセンスを取得した。そして約2万時間近い時間をかけて音声をAIに聞かせた。

そうして、Stable Audioはユーザーが入力したテキストの説明から、それに近い音を模倣して出力することが可能になった。

Stable Audioには、カスタマイズしたオーディオを素早く生成するため、システム内がいくつかのパートに別れていて、それらが連動する仕組みになっている。

たとえば、そのうちのひとつは、オーディオファイルを圧縮する際に不要なノイズを取り除く一方で、重要な特徴となる部分を保持する格好でそのデータ量を縮小できる。これによって、AIの学習が速くなり、新しくオーディオを出力するのにかかる時間も短縮されるのだそう。

またほかの部分では、テキスト(音楽やサウンドのメタデータの説明)を使って、どのようなオーディオを生成すれば良いか、ある程度ガイドすることが可能になっている。

Stable Audioアーキテクチャは、推論(機械学習モデルが入力を与えられてから出力を生成するまで)にかかる時間の短縮のため、大きくデータ量を間引いた圧縮オーディオを用いて動作するという。そしてこれによりStable Audioは、Nvidia A100 GPUを使用した場合、サンプルレート44.1kHzで95秒間のステレオ音声を、わずか1秒に満たない時間で生成できるとのことだ。

テキストから音楽やその他サウンドを生成するAIツールとしては、画像生成AIのStable Diffusion 1.5を使い、音のスペクトログラムからサウンドを生成する変わり種の「Riffusion」が公開されていた。

また、Googleは今年1月、24 kHz音声用のAI音楽生成ツール「MusicLM」を、Metaは8月にオープンソースのオーディオツール「AudioCraft」を発表したが、これにもテキストから音楽を生成する機能が含まれていた。

ただし、44.1 kHzの「CD音質・ステレオ音声」を売りとするのは、Stable Diffusionが初めてかもしれない。

Stability AIとHarmonaiは今後、このStable Audioを無料プランと月額12ドルのProプランで提供する予定だ。無料プランでは、毎月20秒までの長さのサウンドを最大20トラックまで生成可能。Proプランにすると、これら制限が緩和され、90秒までのサウンドを月間500トラック生成することが可能になる。

関連キーワード: