2%の「活動家型AI」のせいでAI社会全体が変わる

研究チームは、4種類のLLMを「エージェント(agent:それぞれ独立して行動するAI)」として24〜200体ほど用意し、教室の生徒のようにずらりと並べました。
そしてAIたちに、「同じアルファベット1文字など』を出せたら得点が入り、外れたら減点される」というシンプルなゲームをしてもらいました。
重要なのは、AIたちに他のAIたちのやりとりのデータを与えず「どのアルファベット」が優勢かわからないように設計されている点です。
あくまで各AIが直近の話し合いだけを参考に、手探りで相手に合わせようと試行錯誤するだけで、グループ全体の合意形成が起こり得るのかを確かめたのです。
しかしその結果は予想以上に鮮やかでした。
なんと、AIたちは中央の取りまとめ役がいなくても、自発的に一つのアルファベットへと収束したのです。
初めは各ペアでバラバラなアルファベットが飛び交うものの、試行を重ねるうちに次第に選択肢が収斂し、多くのモデルでは約15ラウンド以内に全員が同じアルファベットを選ぶ状態(=規則の合意)が成立しました。
人間でいえば、「クラスの中でいつの間にかある人物のあだ名として1種類だけが生き残る」ような状況です。
ここには中央の司令塔もいなければ、「このアルファベットで統一しよう」と相談する場もありません。
ただ、目の前の相手との小さなやり取りを繰り返しただけです。
しかも収束のスピードは用いたモデルによらずほぼ同様で、大規模な人口(最大200体規模)にスケールさせても同じように短いラウンドで全員の意見が揃います。
まるでAIたちが「これで行こう」と阿吽の呼吸で決めているかのように、見事に“暗黙のルール”が芽生えたのです。
(※人間においても見知らぬ人のニックネームなどへの同調圧力は確認されています。さらに、別の実験では「10個の任意の名前リスト」から選ぶ条件でも、同じように集団が1つの名前にまとまることが示されています。研究者たちも今回の実験は人間の心理実験を参考に作成したと述べています)
さらに、どの文字が選ばれるかにも興味深い傾向が見られました。
直感的にはどの候補も平等に思えますが、実際には特定の文字が他よりも最終的な勝者になりやすかったのです。
例えば、選択肢にアルファベット全てを含めた場合、AIたちは初期状態で「A」を選びがちで、その結果「A」が最終的な合意になりやすい傾向が観測されました。
研究チームは、この勝ちやすい文字を「強い合言葉」、逆に選ばれにくいものを「弱い合言葉」と呼びました。言わば、個々のAIは公平でも、集団では流行のような偏りが生じ、みんながつい同じ選択肢を贔屓してしまう状況が生まれたと言えます。
最後に、研究者たちは一度確立した「合意(空気感)」を揺さぶる実験を行いました。
クラス全員がある合言葉に染まったところで、少数の“異端児”AIを紛れ込ませ、彼らには別の合言葉を頑固に使い続けさせたのです。
この少数派の活動家AIたちは周囲が何と言おうと自身の合言葉を曲げません。果たして、こうした一握りの反逆者でクラスの空気を変えられるのでしょうか?
実験の結果、少数派がある臨界質量(critical mass)に達したとき、集団全体の合言葉が一気に塗り替わる現象が確認されました。
少数派が臨界点を超えると、それまで多数派だったAIたちまでも一斉に少数派の新ルールへと追随し、まるでクラスの空気が一瞬で入れ替わったかのように見えたのです。
この“逆転”を起こすのに必要な少数派の規模(臨界値)は状況によって様々でしたが場合によっては2%程度のごく小さな反逆者だけでも全体の流れを変革することも可能でした。
(※臨界値は場合によってさまざまで2~67%となっていました。なお人間の場合は類似のルールでは理論的には10~40%が臨界値となっています。ただ社会運動などでは0.3%のような極めて小さい集団でも時間をかければ大きな変革を起こせることが報告されています。)
一方、少数派が臨界質量に届かない場合、AI社会は元の合言葉派と新しい合言葉派に二分されたまま膠着状態に陥ります。
いわば教室内に派閥ができて対立しているような状況です。
しかし、ひとたび少数派が“過半数”に迫る勢いを持てば、空気がガラリと変わり、旧来のルールが雪崩を打って崩れてしまうのです。
みんなの意見やふるまいが一斉にひっくり返るわけです。
物理学では、こうした「ある限界を超えたとたんに状態が切り替わる」現象を相転移と呼びます。
SNSの世界でも、多くの人が急に同じ方向に動き始めるポイントがあり、この急激な切り替わりを相転移になぞらえて説明する研究が行われています。
そうした視点から見ると、「炎上」とは、バラバラだった反応が一気に同じ方向へそろってしまう、情報空間の相転移だと考えることもできます。
今回の研究でAIたちは人間たちの「炎上」のような罵詈雑言は発しなかったものの、AIだけの社会でも炎上にみられる情報空間の相転移を引き起こしかねない兆しがみえてきました。
もしAIたちを(中傷ありの)より人間的な設定のもとで運用したならば、AIにも人間に似た炎上に近いふるまいが現れるかどうかを確かめられるかもしれません。
これらの結果は、AI同士が対話する環境では、「空気を読むAI」をわざわざ作らなくても、AIたち自身が空気を作り、その空気に従って行動してしまう状況が起こりうると考えられます。
研究者らは「この新種のAIたちが相互作用し始めた影響は計り知れない」と述べており、この研究をAIと共存する未来を考えるための重要な出発点だとしています。
人間とAIが混在する社会の在り方を考える上でも重要な知見となるでしょう。
それは裏を返せば、AIを一対一で安全に設計するだけでは不十分かもしれない、という重要な示唆でもあります。
実際、研究チームは「バイアスは必ずしも個々のAIの中から生まれるとは限らない」と指摘しており、AI安全性の盲点として集団レベルでの偏りに警鐘を鳴らしています。
今後、AI開発者は単体の性能や倫理チェックだけでなく、AIが集団化したときにどんな予期せぬ“空気”や規範が育つのかにも目を配る必要があるでしょう。



























![[WILL CLENS] シューズパウダー 日本製 無香料 シューケアキット 靴 消臭 パウダー (1本)](https://m.media-amazon.com/images/I/41m8Ig2XigL._SL500_.jpg)
![シルバーバック【カンタン!たのしい!水の生きもの砂絵セット】 幼稚園 小学校 入園 入学 お祝い プレゼント 準備 ([バラエティ])](https://m.media-amazon.com/images/I/515gZ4F-QYL._SL500_.jpg)
![[コロンブス] キレイな状態をキープ 長時間撥水 アメダス 防水・防汚スプレー420mL](https://m.media-amazon.com/images/I/31-OcmTs2LL._SL500_.jpg)






















