思考の連鎖

OpenAI、新言語モデル「o1」発表。推論能力を大幅に強化、より複雑なクエリに対応

Image:Vitor Miranda/Shutterstock.com

OpenAIは、「o1」と呼ばれる新しい言語モデルを発表した。ChatGPT PlusおよびTeamユーザーは、すでにプレビュー版の「o1-preview」と「o1-mini」にアクセスでき、 ChatGPT EnterpriseおよびEducationalユーザーは来週初めにo1にアクセス可能になる。

「Strawberry」という開発名で、AI界隈でうわさになっていたo1の特徴は、従来のLLMに比べより複雑な質問に正しく応えることができ、さらに複数ステップの数学問題に対する解答能力や、プログラムコード作成などを得意としているところだ。

o1は、質問のすべての正しく理解し検討するために、より多くの時間を費やすことで効果的に事実確認を行う。これによってAIモデルが陥りがちな推論に関する問題を回避できるという。人間的に言えば、質問に対して答える前にもう一度それが正しいかを「考える」能力があるということだ。

「考える」時間を与えられたo1は、質問を総合的に推論でき、言語モデルが回答に達するのに役立つ一連の思考を長く実行する。これによって、複数のサブタスクの結果を統合する必要があるタスクにも正しく回答できる。

OpenAIの研究科学者であるノアム・ブラウン氏は「o1は強化学習で訓練されている」とし、o1が正解した場合には報酬を与え、不正解の場合はペナルティを与えることで、システムに「プライベートな思考の連鎖を介して、応答する前に『考える』こと」を教え込んだとした。また、新たな最適化アルゴリズムと、推論タスクに特化した「推論データ」や科学文献を含むデータセットを使い「AIが考える時間が長ければ長いほど、より良い結果が得られる」とし、幻覚の減少にも効果があったと述べている。

OpenAIによると、高校生の数学コンテストである国際数学オリンピック(IMO)の予選試験で、o1は83%の問題を正しく解いたという。これはGPT-4oの13%を大きく上回る成績だ。とはいえ、Google DeepMindのAIがIMOのコンテストで銀メダルを獲得している事を考えると、まだまだ上を目指す必要はありそうだ。

一方、Codeforcesと呼ばれるプログラミングチャレンジでは、DeepMindのフラッグシップシステムであるAlphaCode 2を凌ぐ成績だったとされている。

OpenAIは、データ分析、科学、コーディングに優れ、GitHubは、このモデルがアルゴリズムとアプリコードの最適化に長けていると評価している。また多言語スキルにおいても、GPT-4oを上回っているようだ。

もちろん欠点もないわけではない。それは回答にかかる時間が長いという点だ。o1を試した人物の報告によると、いくつかの質問では回答に10秒以上待たされたとのことだ。さらにOpenAIは、幻覚が減ったとは言え、o1がGPT-4oよりもまだそれを見る頻度が高い傾向があることを認めている。

現在のところ、o1-preview、o1-miniチャットボットはかなり基本的なものであり、GPT-4oのようにウェブを参照したりファイルを分析する能力を備えていない。画像分析機能もまだ試験が完了しておらず、無効化された状態だ。またo1にはレート制限があり、o1-preview の場合は週あたり30メッセージ、o1-miniは週あたり50メッセージとなっている。

さらに、o1の料金はかなり高価に設定されている。API経由でo1-previewを使用する場合、1000万入力トークンあたり15ドル、100万出力トークンあたり60ドルを支払わなければならない。これはGPT-4oに比べて入力で3倍、出力で4倍高額だ。なおトークンとは、AIモデルが処理するテキストの基本単位で、英語ならばだいたい1単語1トークン、日本語では1文字1トークン弱と言われている。

OpenAIはChatGPTの無料ユーザー全員にo1を提供するとしているが、それがいつになるかは述べていない。

関連キーワード: