人間の感情も読み取り可能に

OpenAI、新AIモデル「GPT-4o」発表。2倍高速、より自然な会話、API利用料は半額に

Image:OpenAI

OpenAIは5月13日(現地時間)、新型AIモデル「GPT-4o」を発表した。テキスト/音声/画像入力のあらゆる組み合わせに対応し、3種類を組み合わせた出力も可能だ。

特に強調されているのが、従来モデル「GPT-4 Turbo」から2倍高速になったこと。さらに、すべてのユーザーが無料で利用できるという。有料ユーザーは無料ユーザーと比べて「最大5倍の容量制限」が使えるとのことだ。

GPT-4oは「より自然な人間とコンピュータの対話」に一歩近づいたという。音声入力に対してはわずか232ミリ秒、平均320ミリ秒で応答。日本語を含む50の言語に対応し、英語以外のテキスト処理も大幅に改善。APIもはるかに高速となりつつ、50%安価になった。

OpenAIのCTOであるミラ・ムラティ氏は「GPT-4oの特別な点は、無料ユーザーを含む全ての人にGPT-4水準のインテリジェンスを提供すること」「使いやすさに関して大きな一歩を踏み出したのは今回が初めてだ」と述べている。

プレゼンテーションでは、GPT-4oは英語とイタリア語をライブ翻訳し、研究者が紙の上で一次方程式をリアルタイムで解くのを助け、呼吸を聞くだけで深呼吸のアドバイスまで出来ると披露した。

GPT-4oの “o” は “omni” (あらゆるもの)を意味し、幅広いマルチモーダル処理能力を表現している。テキスト、視覚、音声にわたって訓練されており、すべての入力と出力が同じニューラルネットワークにより処理されるという。

これは、以前のGPT-3.5やGPT-4とは異なる。GPT-4でも音声による質問はできたが、内部的には音声をテキストに書き起こし、それを取り込んでテキストに出力し、さらに音声に戻していた。そのため口調や感情、歌声などがそぎ落とされる上に、回答が遅くなっていた。

今後数週間で、ChatGPTの無料ユーザーを含むすべての人が新たなAIモデルを利用可能になる見通し。また、ChatGPTのデスクトップ版もリリース。まず有料プランChatGPT Plusユーザー向けにmacOSアプリを配布し、2024年内にWindows版も提供する予定だ。

今回の発表は、Googleの年次開発者会議「Google I/O」の前日に行われた。OpenAI独自の検索エンジンが登場するとの噂もあったが、フタを開ければGPT-4の強化版がお披露目された格好である。

関連キーワード: