GPT-4は入力された画像をテキストで説明することも可能

OpenAI、GPT-4 APIを一般提供。Completion API使用の古いモデルは段階的廃止へ

Image:OpenAI

先週、OpenAIはすべての有料APIユーザーが、GPT-4 APIにアクセス可能になったことを告知した。同社を一躍、業界有数のAI企業にのし上げることになった大規模言語モデルGPT-3の後継として、3月にリリースされたのがGPT-4だ。

GPT-4はユーザーの指示をより効果的に解釈し、入力にテキストだけでなく画像を使うこともできるほか、強化された推論機能も備えている。特に推論機能の強化は、AIが数学の問題を解くなどといった複雑なタスクをより簡単に実行できるようにすることが期待される。

有料APIユーザーは、今後GPT-4 APIを使って言語モデルをアプリケーションに統合できるようになる。このモデルはOpenAIのサーバー上でリモート実行され、インターネット経由で他のアプリに出力を提供する。

有料APIで利用可能になるGPT-4モデルのコンテキスト数は8Kで、今月末までに、新しい開発者も同様にアクセスできるようになる。その後、OpenAIはコンピューティングの可用性に基づいてレート制限の引き上げを開始するという。

さらに、GPT-3.5 Turbo、画像生成用のDALL.E、および音声変換用のWhisper APIも一般公開。またGPT-4とGPT-3.5 Turboの両方において、微調整を可能にすることにも取り組んでいるとのことで、これにより開発者は特定のタスク向けにモデルをカスタマイズしてトレーニングできるようになる。利用開始は今年後半の予定だ。

GPT-4のリリースに伴い、OpenAIはこれまで提供してきた他の古い言語モデルを段階的に廃止する計画も明らかにしており、期限は2024年1月4日となっている。対象となる一部モデルのは新しいOpenAI製品に自動的にアップグレードされる一方で、対象外のモデルは開発者が手動で切り替える必要があるという。

段階的廃止の対象となるモデルの多くは、2020年に提供を開始したCompletions APIと呼ばれるインターフェースを利用しているものだ。OpenAIは今年3月に新しくChat Completions APIの提供を開始しており、すでに同社のAPI経由でのGPT使用量の97%を占めている。

Chat Completions APIにはいくつかの改善が含まれている。そのなかでも最も注目すべき点として、ハッカーが悪意のある命令を使用してAIモデルの出力を変更しようとする、プロンプトインジェクション攻撃への耐性を備え、セキュリティを高めていることが挙げられる。これらの機能強化は、開発者がOpenAIの技術を利用する機械学習アプリケーションのセキュリティを向上させるのに役立つものだ。

関連キーワード: