OpenAIとGoogleはRedditと契約してデータを取得しています
Reddit、ClaudeチャットボットのAnthropicを提訴。提供データに対する未払いの疑い

6月4日、掲示板サイトのRedditは、同サイトのデータを不正に使用した疑いで、AIチャットボットClaudeで知られるAnthropicを提訴した。
Redditは訴状で、Anthropicが適切なライセンス契約なしにRedditサイトのデータを商業目的で無断使用したとしており、これはRedditユーザー契約に違反しており、データを権限なく使用することによる「違法かつ不公正なビジネス行為」に該当するとして提訴に至った。
訴状ではさらに、Anthropicを「そのマーケティング資料に書かれていることとは裏腹に、Redditのルールやユーザーを気に留めず、欲しいコンテンツは何でも手に入れ、そのコンテンツを好きなように使う権利があると信じている」と非難している。一方、Anthropicの広報担当者は電子メールでの声明で、「当社はRedditの主張に同意できず、断固として自らを弁護する」と述べた。
2022年のChatGPT登場によって生成AIブームが始まって以降、AI企業各社は質の高い教科学習用のデータセットを求めており、日々更新され続けるニュースサイトや掲示板サイトの、公開されている物の著作権で保護される記事データなどを無断で使用しては訴訟を起こされている。
20年の歴史を持つRedditも、何十万ものトピックに関するユーザー投稿情報で埋め尽くされており、当然ながらAI企業に注目されるサイトのひとつとなってきた。実際、このサイトはAnthropicのClaudeを含む大規模なAIモデルの主要なトレーニングデータ源のひとつになっている。
しかし現在、RedditはAI強化のためのデータの使用方法を規定するルールを確立しており、それはRedditのユーザー同意書に「明確に記されている」と同社は提出書類で述べている。そして、これまでにOpenAIやGoogleとの間で、AIモデルの強化学習にRedditのコンテンツを使うことを許可している。
「Redditは常に、コミュニティはつながりとコミュニティを求めるすべての人に開かれたものであるべきだと考えてきた。だが、Redditとそのユーザーに何の見返りも与えず、10億ドル規模の企業を作ろうとする営利団体によって、そのプラットフォームと、そこに住処を見出す無数のコミュニティが利用されることを決して許してこなかった」と訴状には書かれている。
- Source: Reddit(PDF)
- via: TechCrunch CNBC