Pixelスマホやイヤホンなど特定ハードウェアの縛りなし

Google、70以上の言語をリアルタイム同時通訳するAI発表。自然な声で会話が成立

多根清史

Image:Google

Googleは、リアルタイム音声対音声同時通訳の最新モデルとして「Gemini 3.5 Live Translate」を発表した。このモデルは70以上の言語を検出でき、話者のイントネーションや話す速度、声の高さをある程度保ったまま「滑らかで自然に聞こえる翻訳音声」を生成するという。

本モデルは、従来の翻訳システムのように「話者が話し終えるまで待ってから訳す」(ターン制)ではなく、話している最中からリアルタイムかつ連続的に翻訳音声を生成する。その結果、「気まずい間のない、流れるような音声」を実現し、会話のテンポを崩さない自動翻訳が可能になった。

そのデモ映像が公開されているが、翻訳された自動音声は本人が喋っているような自然な響きおよびテンポであり、ほぼリアルタイムで会話が成立しているようだ。

Gemini 3.5 Live Translateは現在、AndroidおよびiOS向けGoogle翻訳アプリに展開中である。ヘッドホンを装着した状態で、画面左下の「会話(Live translate)」ボタンをタップして利用できる。

Android版アプリでは、新たに「リスニングモード」も展開中である。これによりヘッドホンが手元にない場合でも、スマホを通常の通話時のように耳に当てるだけで、自分だけ翻訳音声を聞くことができる。

さらに本モデルは、Google Meetにも導入される。これまで同ビデオ通話アプリの音声翻訳は5言語のみに対応していたが、それが70以上の言語に拡大されることで「1回の会議で2000以上の言語の組み合わせ」が利用可能となり、多言語が飛びかうオンライン会議でのリアルタイム通訳として機能するようになる。

こちらは今月中に「一部の法人向けGoogle Workspace顧客を対象としたプライベートプレビュー」として提供が開始されるという。より広範な展開は今年後半に予定されている。

また、開発者向けには、Gemini Live APIとGoogle AI Studio経由で「パブリックプレビュー」として利用可能である。生成された音声にはGoogleの「SynthID」による不可聴の電子透かしを埋め込み、AI生成コンテンツであることを機械的に検出できる。これにより、音声ディープフェイクや誤情報対策を図る見通しだ。

これまでGoogleのリアルタイム音声翻訳はPixelスマホやイヤホンといった一部デバイス向けの機能として展開されてきたが、より汎用的かつ実用的なレベルへ一気に引き上げられた形だ。X(旧Twitter)でもGrokにより多言語のポストが日本のユーザー向けタイムラインに流れ込んでおり、AIにより言語の壁が一気に崩れつつある。

関連キーワード: