最初に話題になった時はOpenAIから抽出したと言われました
中国DeepSeek、AIモデル「R1」最新版はGoogle Geminiのデータで強化のうわさ

先週、推論AIモデル「R1」のアップデート版をリリースした中国のAI研究機関DeepSeekは、数学の計算問題やコーディングといったタスクで優れたパフォーマンスを発揮し、好評を得ている。
しかし、一部のAI研究者らからは、このAIモデルの強化のために、GoogleのGeminiのデータが利用された可能性を疑っている。
オーストラリア・メルボルンのAI研究者兼開発者のサム・ペック氏は、Xへの投稿で、DeepSeekのモデルバージョン「R1-0528」の出力する単語や表現がGoogleのGemini 2.5 Proのそれによく似ていることを指摘した。
また、SpeechMapと称する、AIの「言論の自由度」を調べるツールを開発しているという開発者は、DeepSeekのAIモデルにみられる、モデルが結論に至る過程で生成する「思考」の痕跡が、まるでGeminiのそれのように見えると述べている。
DeepSeekのAIについては、昨年12月に発表したR1のV3モデルが、自らをたびたびOpenAIのAIチャットボットであるChatGPTだと思っているかのような回答を出力することから、このAIの強化にChatGPTの出力が使用されたのではないかとの疑惑が立ち上っていた。
OpenAIも、DeepSeekが知識蒸留(distillation)と呼ばれる手法を用いているという証拠を発見したとFinancial Timesに述べた。知識蒸留とは、規模の比較的小さなAIを強化学習するためのデータセットとして、より大規模かつ複雑なモデルを模倣させるため、大規模なAIモデルからデータや出力を抽出して、小規模なAIを効率良く強化学習させる手法だ。Bloombergは、OpenAIと関係の深いマイクロソフトが、2024年後半にOpenAIの開発者アカウントが、大量のデータを流出させていたのを確認したと伝えた。OpenAIも、これがDeepSeekに関連していると考えているとのことだ。
知識蒸留という手法は、AIモデルをコンパクトかつ高性能にするために用いられる手法として珍しいものではないが、OpenAIは利用規約のなかで、自社のモデルの出力を使って、無関係かつ競合するAIを構築することを禁じている。
もっと言えば、自分自身を他のAIチャットボットと誤解したような出力をするAIも珍しいことではない。なぜなら、AI企業が学習データとして使用するインターネット上のコンテンツが、すでに粗末なAIの出力結果で汚染されつつあるという問題があるからだ。
たとえば、XのようなSNSにはAIボットが生成した、無意味だったり真贋不明な投稿で溢れ、AI生成の低品質なコンテンツで構築された、いわゆるコンテンツファームは、クリックベイトと呼ばれる扇情的あるいは誤解を招くような虚偽・誇大な見出しの記事を量産している。新しいAIはこれらもすべて学習データとして取り込んでいる。
DeepSeekの登場以降、AI企業は自社のモデルを知識蒸留に使用されないようにするための対策を強化している。OpenAIはAPIを使用する企業組織にID確認プロセスを完了することを義務付けるようになった。これには政府が発行するIDが必要になるが、中国殻の利用は許可されない。GoogleやAnthropicは、自社のAIモデルの思考プロセスを記録して、それをそのまま競合するAIモデルに学習させられることを阻止するため、プロセスのデータを「要約」して出力するように変更した。
- Source: TechCrunch