笑いながら怒るおじさんを生成して
“これまでにない音も作れる” オーディオ生成AI「Fugatto」。NVIDIAが発表
NVIDIAは、例えば「ニャーニャー鳴くトランペット」のような、AI強化の際に学習もしていない「これまでにない音」を生成できるという新AIモデル「Fugatto」を発表した。
Fugattoは、テキスト入力やオーディオ入力を使い音楽、サウンド、スピーチなどを生成可能なAIモデルだ。「サックスによるうなり声や吠え声のあとに、犬の吠え声を乗せた電子音楽を作れ」といった、よくわからない注文に対しても、それらしいサウンドを生成して返す能力がある。
生成したオーディオの一部分を調整することも可能で、声色やアクセントを変えたり、感情表現を変えたりといったことができる。NVIDIAは、歌からヴォーカルだけを分離したり、楽器の種類を変えたり、ピアノ(楽器)をオペラ歌手(ヴォーカル)に変えるなどの例も紹介している。
Fugattoと同時に発表された論文には、このオーディオ生成AIの強化学習に使われたすべてのデータセットがリストアップされており、そのなかにはBBCによるサウンドエフェクトライブラリーなどが発見されている。
研究者は数百万のオーディオサンプルを含むデータセットをまとめる必要があったという。
NVIDIAの応用オーディオ研究マネージャーであるラファエル・ヴァレ氏は「人間と同じように音を理解し、生成するモデルを作りたかった」と語り、実用できそうな使い方として、音楽家がデモ曲を素早く生成・編集して、様々な楽器やヴォーカルスタイル、曲調を試すことができると述べた。
また、その他にもビデオゲームのなかでプレイヤーの行動や選択に応じて、事前に収録された音声アセットにバリエーションを付与することができると説明されている。たとえば、ゲーム内の時間帯が深夜なら、プレイヤーの問いかけに対するNPCの受け答えも眠そうな口調にするといったことが可能になるかもしれない。
ただし、NVIDIAはこのツールがいつごろリリースされるのか、そもそもリリースする計画があるのかについては述べていない。
オーディオ生成AIとしては、Stability AIからOpenAI、Google(DeepMind)、Adobeまでいろいろとあるが「これまでにない音」を生成できると謳うのはFugattoが初めてかもしれない。
だが音楽生成AIをめぐっては、これまでにSunoやUdioといったスタートアップが「テキストから音楽を生成できる」生成AIを発表してきたが、AIの強化学習の際に著作権保護された楽曲を使用したとしてユニバーサル、ワーナー、ソニーの3大メジャーレーベルおよび全米レコード協会(RIAA)から訴訟を起こされている。訴えられた側は楽曲使用はフェアユースの範疇だと主張しているものの、 出力された楽曲には明らかに原曲がわかるサウンドが含まれており、事前に包括的な使用に関する同意も得ていないとRIAAは述べている。