中国DeepSeek、AIモデル「R1」最新版はGoogle Geminiのデータで強化のうわさ

Munenori Taniguchi

2025/06/04 19:00

先週、推論AIモデル「R1」のアップデート版をリリースした中国のAI研究機関DeepSeekは、数学の計算問題やコーディングといったタスクで優れたパフォーマンスを発揮し、好評を得ている。

しかし、一部のAI研究者らからは、このAIモデルの強化のために、GoogleのGeminiのデータが利用された可能性を疑っている。

オーストラリア・メルボルンのAI研究者兼開発者のサム・ペック氏は、Xへの投稿で、DeepSeekのモデルバージョン「R1-0528」の出力する単語や表現がGoogleのGemini 2.5 Proのそれによく似ていることを指摘した。

If you're wondering why new deepseek r1 sounds a bit different, I think they probably switched from training on synthetic openai to synthetic gemini outputs. pic.twitter.com/Oex9roapNv
— Sam Paech (@sam_paech) May 29, 2025

また、SpeechMapと称する、AIの「言論の自由度」を調べるツールを開発しているという開発者は、DeepSeekのAIモデルにみられる、モデルが結論に至る過程で生成する「思考」の痕跡が、まるでGeminiのそれのように見えると述べている。

DeepSeekのAIについては、昨年12月に発表したR1のV3モデルが、自らをたびたびOpenAIのAIチャットボットであるChatGPTだと思っているかのような回答を出力することから、このAIの強化にChatGPTの出力が使用されたのではないかとの疑惑が立ち上っていた。

OpenAIも、DeepSeekが知識蒸留（distillation）と呼ばれる手法を用いているという証拠を発見したとFinancial Timesに述べた。知識蒸留とは、規模の比較的小さなAIを強化学習するためのデータセットとして、より大規模かつ複雑なモデルを模倣させるため、大規模なAIモデルからデータや出力を抽出して、小規模なAIを効率良く強化学習させる手法だ。Bloombergは、OpenAIと関係の深いマイクロソフトが、2024年後半にOpenAIの開発者アカウントが、大量のデータを流出させていたのを確認したと伝えた。OpenAIも、これがDeepSeekに関連していると考えているとのことだ。

知識蒸留という手法は、AIモデルをコンパクトかつ高性能にするために用いられる手法として珍しいものではないが、OpenAIは利用規約のなかで、自社のモデルの出力を使って、無関係かつ競合するAIを構築することを禁じている。

もっと言えば、自分自身を他のAIチャットボットと誤解したような出力をするAIも珍しいことではない。なぜなら、AI企業が学習データとして使用するインターネット上のコンテンツが、すでに粗末なAIの出力結果で汚染されつつあるという問題があるからだ。

たとえば、XのようなSNSにはAIボットが生成した、無意味だったり真贋不明な投稿で溢れ、AI生成の低品質なコンテンツで構築された、いわゆるコンテンツファームは、クリックベイトと呼ばれる扇情的あるいは誤解を招くような虚偽・誇大な見出しの記事を量産している。新しいAIはこれらもすべて学習データとして取り込んでいる。

DeepSeekの登場以降、AI企業は自社のモデルを知識蒸留に使用されないようにするための対策を強化している。OpenAIはAPIを使用する企業組織にID確認プロセスを完了することを義務付けるようになった。これには政府が発行するIDが必要になるが、中国殻の利用は許可されない。GoogleやAnthropicは、自社のAIモデルの思考プロセスを記録して、それをそのまま競合するAIモデルに学習させられることを阻止するため、プロセスのデータを「要約」して出力するように変更した。

Source: TechCrunch

中国DeepSeek、AIモデル「R1」最新版はGoogle Geminiのデータで強化のうわさ

Share

関連キーワード:

Share

ゲームや映像が“照明で凄くなる”科学的根拠、Philips Hue「シンクボックス8K」の圧倒的な没入効果

Googleのイヤホン、Gemini連携はどれだけ便利？ 2万円台で登場「Pixel Buds 2a」を試した

iPadはMac代わりになるか？ iPadOS 26パブリックベータ、検証で判明「Macとの重要な違い」

1000万契約を控え「値上げしない」宣言、楽天モバイルはいつまで耐えられるか

“忙しい毎日”をスマートホームで効率化！導入してわかった、日常の「ひと手間」を減らす方法

スマホは“毎週”再起動するべき、米国家安全保障局が推奨する理由

科学者が考えた西暦3000年の人類の姿？スマホやコンピューターの使いすぎに警告

中国DeepSeek、AIモデル「R1」最新版はGoogle Geminiのデータで強化のうわさ (adsbygoogle = window.adsbygoogle || []).push({});

Share

関連キーワード:

Share

中国DeepSeek、AIモデル「R1」最新版はGoogle Geminiのデータで強化のうわさ