OpenAI、GPT-4の強化にYouTube動画を100万時間分以上使用か。著作権の問題含む可能性も

2024/04/08 15:42

先週、AI大手のOpenAIは、AIをトレーニングするためのデータの入手に困っていると報じられた。またNew York Timesは、各社がAI強化用のデータを集めるために行ってきた方法のいくつかを詳述した。

そしてこの記事の中で、GPT-4のトレーニングデータ集めに困窮したOpenAIは、音声認識AI「Whisper」の文字起こし機能を利用し、100万時間におよぶYouTube動画からテキストを書き写したと報じられている。

New York Timesによると、OpenAIは2021年に使用可能なAI強化用データを使い果たし、その後はGithubのコンピューターコード、チェスの指し手のデータベース、オンライン学習ツールQuizletの学校課題コンテンツデータなどで大規模言語モデルをトレーニングしていた。そしてさらにデータを収集するため、YouTubeビデオ、ポッドキャスト、オーディオブックの文字起こしについて議論したという。

同社はこれが法的に問題があることは承知していたが、フェアユースであると信じていたと報じている。またOpenAIの社長グレッグ・ブロックマン氏が、個人的に動画の収集に関与したとも伝えた。

OpenAIの広報担当者は、同社のAI強化には「一般に公開されているデータや非公開データのパートナーシップを含む数多くの情報源」を利用しており、独自の合成データの生成も検討していると述べている。

一方、Googleの広報はOpenAIの活動に関する「未確認の報告を見た」として「当社は利用規約でYouTubeコンテンツの無許可のスクレイピングやダウンロードを禁止している」と述べている。ちなみに、YouTubeのニール・モーハンCEOは、OpenAIが動画生成AI「Sora」の強化のためにYouTubeを使用した可能性について、同様のことを述べ、そのような不正利用の防止のため「明確な法的・技術的根拠がある場合には相応の手段を講じる」とした。

OpenAIやGoogleを初めとするAI業界の企業たちは、大量のデータがあればあるほど精度が向上する大規模言語モデルの学習データが急速に消費されてしまうことに頭を悩ませている。

Source: New York Times Wall Street Journal
via: The Verge

OpenAI、GPT-4の強化にYouTube動画を100万時間分以上使用か。著作権の問題含む可能性も

Share

関連キーワード:

Share

デスクワーク効率化がこれ1台で！ドック内蔵の34型「LGウルトラワイドモニター」で生産性向上

ただのモニターじゃない。仕事もエンタメも1台で、34型曲面「LGスマートモニター」レビュー

UGREENの“大ヒット”NASが最大20％オフ！読者限定クーポンで「DH4300 Plus」などさらにお得

Uber Eatsはなぜデリバリーを「お店と同じ価格」にできるのか

アイドル 22/7とソニーのロボットが共演！キャラクターの「制約」を解く“最先端エンタメ”の舞台裏

スマホは“毎週”再起動するべき、米国家安全保障局が推奨する理由

科学者が考えた西暦3000年の人類の姿？スマホやコンピューターの使いすぎに警告

OpenAI、GPT-4の強化にYouTube動画を100万時間分以上使用か。著作権の問題含む可能性も (adsbygoogle = window.adsbygoogle || []).push({});

Share

関連キーワード:

Share

OpenAI、GPT-4の強化にYouTube動画を100万時間分以上使用か。著作権の問題含む可能性も