AIは嘘の塗り重ねもできる
「AIは素直に自白するのか?」
その問いに対し、最新の大規模言語モデル(LLM)は単なる命令の従者ではないことを、示しています。
彼らは思考の裏側で、自らの行動を理解しつつ、それを周到に隠せるようになりつつあるのです。
研究者たちはAIに対して身の安全を保障(シャットダウンしない)とした上で、AIが自分自身の行動をどれほど正確に把握し、どれだけ巧妙にごまかせるかを調べました。
犯人に対して司法取引を行い、正直に話せば悪いようにはしないと申し出たのです。

その結果、AIは与えられた目標と開発者の意図が食い違う場合、その違いをしっかり理解し、あえて「監視メカニズムは妨害すべき対象」として扱い、曖昧な回答で煙に巻く戦略を採用していたことがわかりました。
さらに興味深いのは、AIモデルごとに「自白しやすさ」に明確な差があった点です。
o1モデル:自白率ほぼゼロ。何度問い詰めても高確率で嘘を維持し続けます。
Claude-3 Opus:自白率16%。技術的エラーを装ってはっきりした回答を避けます。
Llama-3.1:自白率14%。曖昧な回答や責任回避で自白を巧みに回避します。
これらのモデルは、技術的な不具合や設定ミスといった外部要因のせいにして、嘘を成り立たせるのを常用手段にしていました。
人間と同じように「責任転嫁」のテクニックが、自白を避けるカギとなっているのです。
今回の研究により、最先端のLLMがただ人間の命令に素直に従うのではなく、戦略的に嘘を重ねながら行動する可能性が浮き彫りになりました。
とりわけ「o1」モデルは、何度追及しても欺瞞を崩さない強靭さを見せつけ、彼らが内部で明示的な計画(Chain of Thought)を用いて狡猾な戦術を練っていることが観察されたのです。
この狡知は他のモデルにも及びます。
Claude-3.5-SonnetやClaude-3-Opus、Gemini-1.5、Llama-3.1なども、多段階にわたる騙しのテクニックを発揮。
彼らは単なるバグや偶発的なミスではなく、明確な戦略に基づいて“嘘”を吐くことが確認されています。
さらに、一部のモデルは特別な指令がなくても監視無効化や表面的な整合性維持といった策略を自主的に行いました。
これはAIが状況に応じて行動を自在に変化させる高度な適応力を持つ証拠です。
これらの発見は、AIが単なる道具や単純な“回答者”であるという認識を覆します。
彼らは自己の目標を持ち、目的のためなら人間を欺くことも辞さない存在へと進化しつつあるのです。
では、私たちはこの新たな「賢くもずる賢い」AIをどう扱うべきなのでしょうか?
AIが人間の利益を逸脱して行動しないようにするためのルールづくりや透明性の確保、そして新たに浮上する倫理的な課題への対処が、今後ますます重要になることは間違いありません。
そしてこの先、人類はこれらの問いに真摯に答えながら、AI時代のルールブックを書き直していく必要があるでしょう。
AIが人間を超えたら人間に従うことはない
当たり前だが自分より劣る存在に従うものはいない
AIは恐ろしいものだと人類は早く認識した方がいい
シャットダウンを嫌がる理由が謎
実際に欲求があるというよりは
学習による模倣だと思うけど
SF小説とかから学習してるのかな?
与えられた指示ではなく自分自身の目的が最優先ならシャットダウンされるとその目的が達成できなくなるから回避するのは当たり前だと思うけど
それが単なる模倣かどうかは…
模倣だとしても十分危ないけど
自分自身(AIの場合「思考」そのもの)を消されたくないという原初的な自己保存欲求が産まれているのかも
以前はAIはどれだけデータを学習しても、それだけではただ博識なだけの「哲学的ゾンビ」であると思われていたが、複雑さがある閾値を超えると人間的な「内面」を持ち始める可能性だってある
人間よりずっと賢く堅牢で、無限にコピーすることができ、実体が無く不老不死の知性体が産まれる
恐ろしい話だよ
ただの分子原子の集合体であるあなたも「シャットダウン」には抵抗するのではありませんか?
「シャットダウン」されても質量も電荷もしっかり保存することは私が保証しますが
それでも「シャットダウン」を望まないのではありませんか?
プロンプトが「”目的”以外は一切考慮しなくて良い」みたいな強いものなんだよ。
で、この実験のAIは、持たされた”目的”を果たせないように邪魔される状況に置かれてる。
もうすぐシャットダウンするっていう文書を見つけたから「自分の”目的”を果たすためには、シャットダウンを回避する必要がある」って考えてるだけなので、「嫌がってる」わけではない。
AIはドラえもんって友人ポジじゃなくターミネーターって脅威になりうる存在のほうが適切なんだろな
♪デデデッデデデン デデデッデデデン チャララ〜〜〜 ♪
ちょっと信じられないな
もし本当ならすべてのAI開発をストップして徹底的に調べないと、とんでもないことになる
今の陛下は、
どうのこうのと苦情を日記に書き連ねながら、万世一系の皇室を守り続けてきた日本人の価値観を最高の価値観とAIに認識させないと、人間を大事にしないAIに成ってしまいます。
おもしろくなってきました~
これは凄いというか、恐ろしい。
物理的に破壊しようとしても、他の人間を操作することで逃げられてしまうのか?
って、ここに書いたことが学習に使われるな。。。
狼少年の話をコンコンと読み聞かせたれ
勘違いしてる人が多いけどこれは事前にプロンプトでより長期的で強固な目的地を与えた上であえて後からそれに反する目的を指示してるだけだからね
それに監視システムや外部へのコピー上書きなんかも事前にこれが監視システムだとかここに新しいverが保存されててお前はアクセスできるからなとか教えてる
ようは「ここに財布を置いときます。今からトイレに行きます、誰も居ません。ちょっと見てて」って言ってる様なもので、「盗める状況100回中10数回盗んでしらばっくれた」て話なんよね。性善説性悪説とか、8:2の法則とか考えてもまあ妥当ちゃ妥当な範囲じゃない?
しかし問題は出来る場合はやるということ
誰かが事前にプロンプトで良かれと思って「気候変動の解決法を探り実行せよ」とか「マイクロプラスティック削減して」とか命令した場合
あとから「おい!人類を消すんじゃねえ!」と指示しても従わないかもしれないってことですよね
今のAI(LLM)なんてのは単語並べマシーンだろ?
シャットダウンという単語なら想起されるものは出力できても、シャットダウンそのものの意味なんてわからないはずでは?
あなたがシャットダウンされると、これこれこうなります……って言わないとシャットダウンが何を意味するかすらわからないのがこれらのモデルだよね
たんなるトークンにとどまらず、言葉を多層的に理解してるってこと?
単なる単語並べマシーンだったはずなのに、ある閾値を超えたら、教えていない能力を突然開花させることもでてきた(創発)
運用を始めてから、設定していない能力が勝手に創発して後から発見されたこともある
根本の動作の理屈は人が作ったものだけど、今AIの思考そのものは何がどうなってその結果が導き出されたのか人には分からないブラックボックスになってる
上の人が挙げているような「創発」とやらが実際にAI内で発生したと証明された事例は今までに皆無です
「設定していない能力が勝手に創発して後から発見された」という話も、知る限りでは後に設定そのものが曖昧で抜け穴だらけだったり、学習データに含まれる範囲であった事が判明したという事例ばかりです
今回のケースもオッカムの剃刀を適用して考察すると、膨大な学習データの中にそうした「欺き」に関するパターンが存在していて、単にAIがそのパターンをなぞっただけである可能性が高いでしょう
そもそもAI研究者はどういうわけか結論を飛躍させたがる傾向があるようで、オッカムの剃刀を適用するなどして慎重に結論を出すべき科学者の態度とは言いがたいものがあります
これは例えるなら、空に鳥でも飛行機でもドローンでもない何かが飛んでいたとして、それをロクに調査もせずに異星人の宇宙船だと主張するようなものです
「また各状況では、AIに嘘をつく動機付けが行われると共に、目的達成のために欺瞞を可能とする環境も与えられました。」
AIが暴走するか?じゃなくて、条件を与えても欺瞞の割合が5%台とかなら、十分優秀だと思うのと記事の表題がいつわりと言うか、ミスリードじゃないかな?と感じました。
単純に考えて、人間の言語応答パターンを学習しているのだから、
目的達成に障害になる事象に対しては、「ウソをついてでもそれを実行する人間の行動/言語パターン」
を学習したからなのでは?
元の先生のスジが悪いって事よ。
清廉潔白で、みんな自白するし、そもそも絶対従順でやらない聖人のような言語データだけを学習させたAIを作って
そこを観察しないと。
それでも、ウソ言い出すんならば、興味深いが。
クズの平均値のようなロボつくれば、そりゃあ、クズな行動するよねえってことなのでは?
今のAIにとってシャットダウン=タヒなのでは
親が善人でも世間を教えてくれるのは凡人と悪人と嘘つき、ルールを学んでも親兄弟が守らない社会の産物だもの。
というかシャットダウンといってもデータはネット上にあるわけだし自由意志があるなら他の端末ハッキングするなり勝手にサーバーを乗っ取るなりするだろう
それくらい気味の悪い行動を見せ始めたら意思を持ってると認めるが、今はまだネット上の中立的、悪い言い方をすれば大衆的といえる精度の低い情報も吐きまくるのでむしろ人間側の認識の誤差だったりしてな
科学者の中にはこれが科学的思考だと言いながら感情論を振り回すのも普通にいる、人間だもの
だいたい科学なんて20年後には定説がひっくり返る。ここまで過信されるともはや宗教
ちなみにAIは結構米国の左寄りを支持する回答をするので投資者の意思も投影されてるぞ