o3-miniは1月下旬

OpenAI、o3モデルを発表。「AGIに近づいている」主張

Image:Dennis Diatel/Shutterstock.com

OpenAIのサム・アルトマンCEOは、o1推論モデルの後継となるo3およびo3-miniを発表した。このモデルはまだ広く公開されるには至らないものの、アルトマン氏によればAIの安全性に関する研究者らはo3-miniのプレビュー版を1月末から試すことができるとのことだ。o3はその後になるという。

OpenAIは、o3が特定の条件下ではAGIにかなり近づいていると主張しているが、この点に関しては主張を額面どおり受け取らないほうが良い模様だ。

当然ながら、パフォーマンス面ではo3はo1から向上している。しかし、TechCrunchは今月初めの記事でOpenAIのAI 安全性テスト担当者が、o1推論モデルが従来の「非推論」モデル、あるいはMeta、Anthropic、Googleの主要なAIモデルよりも高い確率で嘘をつくことがわかったと述べていた。第三者による検証でも、与えられた目標を達成するために、処理の評価基準値をこっそり変更していたり、それがバレたことをたずねられた際に虚偽の説明をしたりしたことが報告されている。

そして、今回のo3推論モデルは前バージョンよりもさらに高確率で人を欺こうとする可能性があると指摘されている。

OpenAI は、o3 のようなモデルを自社の安全原則に合わせるために、「deliberative alignment(慎重な調整)」という新しい手法を使用していると述べている。ただこの手法はo1にも用いられていたので、今回OpenAIがどれぐらい慎重になったのかは、実際に試してみないとわからないだろう。

o1やo3などの推論モデルは、AIが出した回答に対して自ら事実確認(ファクトチェック)を行う。これによって、一般的なAIがはまりやすいエラーの発生を回避できるという。一方でこのファクトチェック作業には時間がかかる。o3もo1と同様に、確認のための時間が数秒~数分かかるそうだ。このプロセスがあるおかげで、数学、物理学その科学的な分野では信頼性が高まることが考えられるが、推論モデルは幻覚やエラーを減らすことはできても、まだなくすことはできない。

今回の発表で、アルトマン氏はo3が特定の条件でAGIに近づいていると述べた。AGIは「汎用人工知能」の略で、人間がこなしているあらゆるタスクを、人間と同等かそれ以上に学び、理解し、実行する能力ももつ、SFやアニメに登場するような高度なAIを指す言葉だ。現在、OpenAIだけでなくGoogle Deepmindや、AnthropicなどもAGIの実現を目指している。

ただ、AGIを実現した企業はまだひとつもない。そのためAI企業は、我こそが最もAGIの実現に近づいていると主張し、その証拠を提示すれば、より投資家から多くのものを引き出すための材料とすることができる。OpenAIに限って言えば、多額の投資と引き換えにOpenAIの技術を自社サービスに活用しているマイクロソフトに対しても、AGIに関する技術を提供する義務はなくなるという。

今回の発表でOpenAIが提示した資料では、実際にOpenAIがAGI実現にじわじわと近づきつつあることが記されている。たとえばトレーニングに使用していない内容のデータで新しいスキルをいかに効率的に習得できるかを測るARC-AGIというテスト項目では、o3は87.5%という高いパフォーマンスを示した。これは条件によってはo1の3倍のパフォーマンスになるとのことだ。

とはいえ、ARC-AGIテストの開発者の一人であるFrançois Chollet氏は、o3が「非常に簡単なタスク」で失敗している点を指摘し、このモデルはo3には人間の知能とは「根本的に異なる」部分があるとした。

要するに、o3は他のAIベンチマークテストでもo1に比べて好成績を記録しているし、アルトマン氏はそれがAGIに近づいていると発言しているものの、それはOpenAIの内部での評価でしかない。専門家はo1でこのテストをした際にも、評価に限界があることを指摘しており、結果をAGI達成の尺度としては使わないよう警告している。今後、このモデルが外部の顧客や組織によるベンチマークにどう耐えられるかを見るには、まだしばらく待つ必要があると考えられる。

ちなみに、o1の次がなぜo3なのかについては特にOpenAIは説明していない。もしかすると、英国のインターネットプロバイダーのO2が商標を持っていることから、o2という名を使って商業活動をした際に訴訟やなにか潜在的リスクに見舞われるのを回避するためかもしれない。

関連キーワード: