データやコードを根こそぎ持って行かれ、通信料は負担させられる

AI用クローラーがrobots.txtを無視しトラフィックを圧迫していると開発者が主張

Image:lilik ferri yanto/Shutterstock.com

数日前、Gitホスティングサービスを行っているSourceHutは、AI企業による情報収集ボットプログラム、いわゆるクローラーが、大規模言語モデルを強化するために使う情報セットになるデータを収集するために膨大なリクエストを同社のGitサーバーに送りつけるせいで、処理が追いつかないサーバーが不安定になっていると不満の声をあげた

SourceHatによれば、AI企業のクローラーは、Webサーバーがボットを拒否する意向を伝えるために使用するrobots.txtを無視してサーバーのデータをクロールしていくのだという。

同社は2022年にも、やはり大量のアクセスによってサーバーへのアクセスが遮られ、さらに帯域幅の負担を強いられたことがある。そのときはGoogleのGo Module Mirrorが元凶だった。これはAIクローラーではないが、Go Modulesを配布するGitサーバーがダウンしたときのために、そのサーバーのデータをすべて取りんでミラーとなるキャッシュを作成するサービスだ。だが、そのサービスが帯域を圧迫してSourceHatのサーバーが使えなくなっていた。

この問題はSourceHatに限った話ではなく、LinuxなどのUNIX系OS向けGUIデスクトップ環境KDEのGitLabサーバーも最近、同様のAIクローラーによって、もはやDoSやトラフィックボムと言っても過言ではないほどのアクセスを仕掛けられ、一時的にアクセス不能になっていた。2023年にはGCCコンパイラーのプロジェクトが、Microsoftに関連するIPアドレスからの大量のリクエストによってサーバーの速度が低下した。さらに昨年7月には、AnthropicのClaudebotが過度のクロールを行いiFixitのサーバーの帯域を消費しているとして非難された。

ソフトウェア開発者のXe Iaso氏も、今年初めに米Amazonからのクローラーが過剰なデータ要求を送信してきたせいで同氏のGitリポジトリーサービスが重くなったと述べている。Iaso氏はrobots.txtの調整で問題を回避しようとしたが、そもそもAIクローラーはrobots.txtによる通常の防護策を無視するものが多く、user-agentの設定を偽装したり、一般家庭のIPアドレスをプロキシ化してアクセスしてくるなどあらゆるトラフィック防御の試みを回避してくると述べた

image:Anubis / Xe Iaso

Iaso氏は、苦肉の策としてGitサーバーをVPNの背後に移し、「Anubis」というカスタムビルドの対策システムを利用せざるを得ない状況に追い込まれた。Anubisは、ウェブサイトにアクセスしてくるエージェントに対し、複雑な計算を解かせることで、一度に大量のアクセスが発生しにくくする。

だが、それも完璧にAIクローラーを防御できるものではなく、Iaso氏はブログ記事で「Giteaサーバーを一般公開しないようにしたくはないが、必要ならそうする」と警告した。

これらの状況は、一般の有志による協力に依存し、限られた予算やリソースで運営されることが多いオープンソースのプロジェクトにとって、非常に厳しい問題を突きつけている。特に行儀の悪いAIクローラーからのトラフィックはサーバーの帯域幅を消費し、運用コストを引き上げる。

Read the Docsと呼ばれるプロジェクトは、AIクローラーのブロックに製鋼した途端にトラフィックが75%減少し、1日あたり800GBから200GBになったと報告した。彼らのブログ記事によると、この変更により、プロジェクトは帯域幅コストを毎月約1500ドルも節約できたという。言い換えれば、AIクローラーがサーバーにあるデータを無料で搾り取りつ、毎月1500ドルの請求書を置いて行っていたということだ。

Hacker Newsではこの事例に対して、AI企業に対する強い不満のコメントが投稿されている。そこでは「1000億ドルの資本」を使うことができるAI企業は、善意での運営など意に介さず、小規模なAIスタートアップや、オープンソースプロジェクトの管理者に毎月数千ドルの帯域幅コストを強いているとされ、Facebookからのクローラーのトラフィックに悩んでいた開発者はUser-Agentに記されたリンクは途切れており、内部の知り合いから得た問い合わせ先のメールアドレスに3度コンタクトを取っても返答がないと嘆いた。

AI企業には、許可なくウェブ上からデータを取得してきた歴史がある。2022年に画像生成AIが現れ、ChatGPTが注目を集めるようになるまで、機械学習分野では所有権をほとんど考慮せず、自由ににデータセットを取得しては定期的にコンパイルしていた。

しかしいまや多くのAI企業が現れクローラーをインターネットの放流してデータ収集を行っている。Ars Technicaの情報源によると、責任と影響のレベルはさまざまである。デニス・シューバート氏がDiaspora のトラフィック ログを分析したところ、同社の Web トラフィックの約 4 分の 1 は OpenAI ユーザー エージェントのボットによるもので、Amazon は 15 パーセント、Anthropic は 4.3 パーセントを占めている。分散型SNSのひとつであるDiasporaのインフラ管理者Dennis Schubert氏は、同サービスのウェブトラフィックの25%がOpenAIのクローラーによるもので、15%がAmazon、4.3%がAnthropicからだったと報告した

クローラーにもいろいろな種類がある。大規模言語モデルを鍛え上げるためのデータセット構築や改良を目的とするものは、あらゆるデータにアクセスしようとする一方で、ユーザーがAIアシスタントに情報を要求したときにリアルタイムでアクセスしてくるものもあるとのことだ。ただ、多くのAIクローラーは数時間ごとに戻ってきて同じことを繰り返すという。Schubert氏は、これはAI企業が「継続的なデータ収集を行っていることを示唆しており、企業がこれらのクロールを使用してモデルの知識を最新の状態に保っている可能性がある」とした。

先週金曜日、Claudflareはウェブサイトを不正なデータ収集から保護するための正当なセキュリティ機能として、「AI Labyrinth」と呼ばれる製品を発表した。AI Labyrinthはの説明文には「不正なクロールを検知した場合、リクエストをブロックするのではなく、クローラーを呼び込むような説得力ある一連のAI生成ページにリンクする」と書かれている。AIクローラーにはAI生成の架空ページで対処するというわけだ。

コミュニティレベルでも、「ai.robots.txt」なるプロジェクトが立ち上がっており、AI企業に関連するクローラーのオープンなリストを作り、Robots Exclusion Protocolを実装する既製のrobots.txtファイルに加えAIクローラーからのリクエストに対してエラーページを返すように記述された.htaccessファイルも提供していいる。

AI企業が影響を受けるコミュニティと直接協力すれば、責任あるデータ収集は実現できると思われる。だがしかし、巨大になったAI企業たちはオープンソースの精神や立ち上がったばかりの弱小ベンチャーに協力的な慣行を採用する姿勢をほとんど示していない。

ちなみに、AI企業がルールを守ろうとしないのはGitリポジトリーやウェブサーバーだけの話ではない。OpenAIのサム・アルトマンCEOは先日、米国政府に対してAI企業が著作権者に許可や補償を与えることなく著作物を使用できるよう米国の著作権法を根本的に改正することを求めた。OpenAIは、そうしなければ「米国の競争力の問題であるだけでなく、国家安全保障の問題でもある」とまで述べた。そして、この主張にはGoogleも追随した

こうした主張は音楽その他の著作権利保有者やその他のコンテンツ制作者に大きな影響を与える可能性がある。当然ながらポール・マッカートニー、ポール・サイモン、ベット・ミドラー、ケイト・ブランシェット、シンシア・エリヴォ、ロン・ハワード、タイカ・ワイティティ、クリス・ロック、ベン・スティラー、マーク・ラファロ、ギレルモ・デル・トロ、エヴァ・デュヴァネイなど多数の音楽業界や映画業界の著名人たちが強く反発し「米国の世界的なAIリーダーシップは、我が国の重要な創造産業を犠牲にしてはならないと我々は固く信じている」と述べている

関連キーワード: