スクリーンショットを解析して動作します

AIがPCを操作可能に。Anthropic、Claude 3.5 Sonnetの新機能「Computer Use」発表

Image:Anthropic

人気上昇中のAIチャットボットClaudeを開発するAI研究所のAnthropicが、誰も予想していなかったPCを操作する機能を、Claude 3.5 Sonnetに搭載するアップデートをリリースした。

Claudeには、ブラウザー上でコードを実行できるツール「Artifacts」が提供されており、コーディング作業の効率を挙げることが可能になったプログラマーたちから非常に高い支持を得ている。

Artifacts機能は、OpenAIがコーディングアシスタントとしても優秀なGPT-4oをリリースしたことで、やや人気が低下し始めていたが、「Computer Use」のリリースにより、再び開発者をClaudeへ呼び戻すことが期待される。

そして、「Computer Use」とそのままの名前で呼ばれる今回の新機能は、これまでClaudeが持っていたブラウザー上でコードを実行できるツール「Artifacts」をさらに発展させ、AIモデル自身がコンピューターを操作可能にする。リリース文には「開発者はClaudeに、人が行うように画面を見たり、マウスカーソルを動かしたり、クリックしたり、テキストを入力したりして、コンピューターを操作することができるようになった」と記されている。

機能紹介の動画では、実際にClaudeが画面上のテキストを読んだり、ダウンロードボタンをクリックしたり、コードを自動的に編集したりといった操作をこなす様子が示されている。

より具体的に説明すると、Ant Equipment Co. のウェブサイトにあるフォームの記入をClaudeが手伝うというシチュエーションにおいて、このAIチャットボットはまず、画面のスクリーンショットを取得。そこに表示されているスプレッドシートに、フォーム入力に必要な情報があるかどうかを確認、その結果情報がないことを特定し、今度はCRMシステムに移動して必要なデータを探し出し、フォームに入力するといった、一連の操作を、ユーザーに変わって実行している。

Computer Use機能は、エージェントコーディングのサポート、計算機能の強化、コード評価、そして小売業や航空会社の業務アプリケーションに特化した、一連の垂直アプリケーションレイヤーのセットまで用意されているという。

このレベルの自動化は、複数のシステムやアプリケーションを切り替える作業が多い金融、法律サービス、顧客サポートなどの業界で、その作業を大きく軽減する可能性がありそうだ。

しかし、AIが人と同じようにコンピューターを制御できれば、セキュリティとプライバシーに関する重大な懸念を引き起こすことが容易に想像できる。特に、管理者権限を持つユーザーのPC操作をAIに任せるようなことがあるとすれば、想像するだけで不安になる。だがClaudeは、そのままの状態でコンピューターを操作できるのではなく、開発者がスクリーンショットツールやアクション実行レイヤーなどの必要なツールを追加で提供しなければ、マウスカーソルを操作したり、キー入力などを実行できず、コンピューターにアクセスできないことを明確にしている。

さらにこの機能は、API経由でのみ利用可能な限定公開ベータ版としてリリースするという、極めて慎重なアプローチをとっている。そのためClaudeの一般ユーザーが、すぐに新機能を試すことはないだろう。また、AnthropicはClaudeに政府機関サイトなど機密性の高いウェブサイトとのやり取り、ソーシャルメディアへの投稿やアカウントの作成など、禁止されているアクティビティをスキャンする機能を用意し、顧客データのプライバシーと機密性を保護するように設計したとしている。

さて、ここまでComputer Use機能に関する、主に良いところを紹介してきた、実際のところこの機能はあくまでベータ版であり、発表時点では完璧に動作するわけではない。Anthropicも、実際の使用においてたとえば航空券の予約タスクを支援する能力をテストしたところ、与えたタスクの半分以下しか正常に完了できなかったことを認めている。商品の返品受付などのタスクでも、やはり高確率で失敗したとのことだ。

これはAIが画面上の情報を読み取るためにスクリーンショットを撮ってつなぎ合わせる方法を用いていることから、短時間で行う操作や一時的に表示される通知を見逃す可能性があること、スクロールやズームなど画面上の基本的な操作でもまだ失敗することなどが原因になっている。Anthropicは開発者に対し「リスクの低いタスクからお試しになることをお勧めします」と記している。

将来的な需要次第では、この新機能が将来のClaudeデスクトップアプリにおける主要機能になる可能性は否定できない。だがそれまでは、開発者が管理された環境でテストを重ねることができる。

アップデートは、Claudeの安価なバージョンであるClaude 3.5 Haikuにも提供される。このアップデートは、既存のバージョンと同じコストと速度で、すべてのスキルセットが向上すると説明されている。なかでも特にコーディング タスクに優れ、オリジナルのClaude 3.5 SonnetやGPT-4oなど、公開されている最先端のモデルを使用する多くのエージェントよりも性能が高いとのことだ。

さらに「低レイテンシー、改善された指示の追従性、より正確なツールの使用」によって「ユーザー向け製品、特殊なサブエージェントタスク、購入履歴、価格、在庫記録などの膨大なデータからのパーソナライズされたエクスペリエンスの生成に最適」とAnthtopicは説明している。

Claude 3.5 Haikuは、今月中にAnthropic API、Amazon Bedrock、Google CloudのVertex AI で利用可能になる予定。まずはテキストのみのモデルとして提供され、その後画像入力も使えるようになるとのことだ。

関連キーワード: