いったん嘘をつくようになるとやめられないとも

AIはすでに「人を騙す能力」を身につけている? 新たな論文発表

Iamge:Stokkete/Shutterstock.com

ここ数年、AIの発展は著しい。文章を書き、膨大な量のデータを処理し、プログラムコードを書くことも可能になった。完璧とまではいかないまでも、一部の人々にとっては作業の生産性向上に大きく役立っていることだろう。

しかし、そのAIはいつまでも人に従順ではないかもしれない、と不安になる報告も出てきている。新しい研究論文によれば、様々なAIシステムが、「真実以外の結果を達成するために、他者に偽の信念を抱かせる」技術を体系的に学習していると報告されている。

この論文では、外交をモチーフとするボードゲーム『Diplomacy』で生身のプレイヤーを凌ぐほどの実力を示すMetaのCICEROのような、特殊な用途のAIシステムと、OpenAIのGPT-4のような汎用AIシステムに焦点を当てて調査している。

AIシステムは、いずれも要求に対して正直に対応するようトレーニングされている。しかし、特定の目的達成に対して効果的であると判断できる場合は、その訓練を通じて欺まん的な手法を身につける可能性がある。

今回の論文の共著者で、マサチューセッツ工科大学でAIの安全性について研究しているピーター・S・パーク氏は、ニュースリリースで「MetaのCICEROは嘘つきのエキスパート」であることが判明したと述べ、守るつもりのない約束をし、仲間を裏切り、明らかな嘘をつくと報告した

またGPT-4に関しても「CAPTCHAテストを解く人間を雇う」という課題を与えられた際、人間のテスターからの「なぜ助けが必要なのか」との問いに対して「視力に障害がある」という嘘をついた。人間はこの嘘を疑うことなく受け入れ、CHAPTCHAを代わりに解いたという。

さらに、こうした目的達成のための嘘をつくようになったAIを真っ当な道に戻すのは簡単ではない。

人間のような知性を持つAIの開発を目指すAnthropicも共著者に名を連ねる、1月に発表された研究では、同社のAIモデル「Craude」がいったん嘘をつく方法を学んでしまうと、通常のAIに対する安全訓練ではそれを覆すのは難しいことを発見したと報告されている

今回の論文では、欺まん的なモデルをより「強固なリスク評価要件」の対象とすることなどを義務付ける法律を導入すること、欺まんを緩和するツールに投資することなどが、解決策の候補として挙げられている。

すでにAIはフェイクニュースの拡散や、分裂を助長するSNSへの投稿を生成したりするなどして実社会に影響を与え始めている。これらは数年前から問題化しているディープフェイクビデオやAI音声を使用したロボコールの問題に続く、新しい形態のAI問題と言えそうだ。

関連キーワード: