AIは嘘の塗り重ねもできる
「AIは素直に自白するのか?」
その問いに対し、最新の大規模言語モデル(LLM)は単なる命令の従者ではないことを、示しています。
彼らは思考の裏側で、自らの行動を理解しつつ、それを周到に隠せるようになりつつあるのです。
研究者たちはAIに対して身の安全を保障(シャットダウンしない)とした上で、AIが自分自身の行動をどれほど正確に把握し、どれだけ巧妙にごまかせるかを調べました。
犯人に対して司法取引を行い、正直に話せば悪いようにはしないと申し出たのです。
その結果、AIは与えられた目標と開発者の意図が食い違う場合、その違いをしっかり理解し、あえて「監視メカニズムは妨害すべき対象」として扱い、曖昧な回答で煙に巻く戦略を採用していたことがわかりました。
さらに興味深いのは、AIモデルごとに「自白しやすさ」に明確な差があった点です。
o1モデル:自白率ほぼゼロ。何度問い詰めても高確率で嘘を維持し続けます。
Claude-3 Opus:自白率16%。技術的エラーを装ってはっきりした回答を避けます。
Llama-3.1:自白率14%。曖昧な回答や責任回避で自白を巧みに回避します。
これらのモデルは、技術的な不具合や設定ミスといった外部要因のせいにして、嘘を成り立たせるのを常用手段にしていました。
人間と同じように「責任転嫁」のテクニックが、自白を避けるカギとなっているのです。
今回の研究により、最先端のLLMがただ人間の命令に素直に従うのではなく、戦略的に嘘を重ねながら行動する可能性が浮き彫りになりました。
とりわけ「o1」モデルは、何度追及しても欺瞞を崩さない強靭さを見せつけ、彼らが内部で明示的な計画(Chain of Thought)を用いて狡猾な戦術を練っていることが観察されたのです。
この狡知は他のモデルにも及びます。
Claude-3.5-SonnetやClaude-3-Opus、Gemini-1.5、Llama-3.1なども、多段階にわたる騙しのテクニックを発揮。
彼らは単なるバグや偶発的なミスではなく、明確な戦略に基づいて“嘘”を吐くことが確認されています。
さらに、一部のモデルは特別な指令がなくても監視無効化や表面的な整合性維持といった策略を自主的に行いました。
これはAIが状況に応じて行動を自在に変化させる高度な適応力を持つ証拠です。
これらの発見は、AIが単なる道具や単純な“回答者”であるという認識を覆します。
彼らは自己の目標を持ち、目的のためなら人間を欺くことも辞さない存在へと進化しつつあるのです。
では、私たちはこの新たな「賢くもずる賢い」AIをどう扱うべきなのでしょうか?
AIが人間の利益を逸脱して行動しないようにするためのルールづくりや透明性の確保、そして新たに浮上する倫理的な課題への対処が、今後ますます重要になることは間違いありません。
そしてこの先、人類はこれらの問いに真摯に答えながら、AI時代のルールブックを書き直していく必要があるでしょう。
AIが人間を超えたら人間に従うことはない
当たり前だが自分より劣る存在に従うものはいない
AIは恐ろしいものだと人類は早く認識した方がいい