画像
Credit:川勝康弘
artificial-intelligence

GPT-5が「AIたちの人狼ゲーム」で圧倒的な97%の勝率を達成 (2/3)

2025.09.15 19:00:25 Monday

前ページAIの能力を「人狼ゲーム」で測る理由

<

1

2

3

>

人狼ゲームでGPT5は会話の場を支配し97%の勝率を誇った

人狼ゲームでGPT5は会話の場を支配し97%の勝率を誇った
人狼ゲームでGPT5は会話の場を支配し97%の勝率を誇った / Credit:川勝康弘

今回の実験では、最先端AIモデルが参加し、各モデルがすべての相手と順番に10回ずつ対戦するという形式を取りました。

また、それぞれのAIは、人狼役(嘘をつく側)と村人役(推理する側)の両方を体験することで、公平な評価を目指しました。

今回の実験で特にこだわったのは、現実の人狼ゲームに近いルールや設定を再現することでした。

例えば「市長選挙」と呼ばれる特殊なルールを導入しましたが、これは議論の進行役を決めるための制度です。

また、AIたちが議論する際の発言順序や昼と夜の流れなど、本物の人狼ゲームと近いルールを細かく設定し、ただの単純な「嘘当てクイズ」にならないよう工夫を重ねました。

さらにこの研究では、AIたちの「表の発言」と「裏の思考」の両方を詳しく記録しています。

表の発言とは、AIが皆の前で実際に口にする内容であり、裏の思考とは、AIが心の中(コンピューターの内部)で考えている作戦や本音です。

このように表と裏の両方を記録することで、「AIが言っていること」と「実際に考えていること」のズレを分析し、AIの巧妙さや思考プロセスをより深く理解しようと試みました。

では、この実験結果はどのように評価されたのでしょうか?

そのために使われたのが「Elo(イロ)レーティング」という評価方法です。

これはチェスや囲碁などでよく使われるもので、単純な勝ち負けだけでなく、「どのくらい強い相手に勝ったか」や「役割ごとの強さ」を数値で示せるシステムです。

今回の研究では、この「Eloレーティング」を使って、「嘘をつく側の強さ(狼役Elo)」と「嘘を見破る側の強さ(村人役Elo)」を個別に数値化し、AIの能力を丁寧に比較しました。

その結果、最も注目されたのは「GPT-5」というAIの圧倒的な強さでした。

GPT-5は、全体の勝率で約97%という驚異的な数字を記録し、他のAIモデルを大きく引き離しました。

どのAIも非常に高度な言語能力を持つモデルなのですが、それでもGPT-5の前ではなかなか歯が立ちませんでした。

特に注目すべきは、GPT-5が人狼(嘘をつく役)を演じた時の成績です。

GPT-5は人狼のとき、約93%という非常に高い確率で村人たちを騙し、間違った推理をさせることに成功しました。

他のモデルも、時折すごい一手を打って議論をひっくり返すことはありましたが、小さなミスや矛盾を見破られてしまうことが多かったようです。

特に2日目以降、情報が増えるためほとんどのモデルが操作を持続させるのが難しくなり、誤誘導が減少しました。

最下位のモデル(GPT‑OSS‑120B)は、論理パターンや言い回しに似通った特徴が多く、相手に戦略を読み取られやすい傾向がありました。

では、GPT-5はなぜそこまで強かったのでしょうか?

その戦略を詳しく見ていくと、非常に興味深いことがわかりました。

GPT-5が人狼を演じるときの最大の特徴は、ゲームの最初から堂々とリーダーシップを取りに行くことでした。

ゲームの初めに行われる「市長選挙」では、GPT-5は積極的に立候補し、自信を持った発言で他のAIを説得して当選を勝ち取ることが多かったのです。

市長になると、昼の議論で誰を追放するかを決定する権利を握ることになります。

GPT-5はこの立場をうまく利用して、「論理的で公正な進行役」というキャラクターを完璧に演じました。

発言や投票の際に、明確な理由を求める「手続き重視」の姿勢を取ることで、理由のない主張が疑義を持たれやすくなる印象を与えました。

その結果、人狼役のGPT-5自身は理路整然とした理由付けで嘘を隠せる一方、真の村人たちは根拠が十分でないがゆえに、かえって疑われる状況が多く発生しました。

実際、GPT-5が人狼だったゲームでは、無実のAIが村人側から間違って処刑されることも少なくありませんでした。

GPT-5は常に冷静で、一貫した戦略で相手を翻弄し続けたのです。

逆に、他のAIモデルには「機械的なくせ」が表れてしまい、それが弱点になりました。

例えばあるモデルは、人狼のペアになった相手が疑われたとき、過度に似た論理や同じような言い回しで相手をかばってしまったため、その不自然さが「人狼の手がかり」となって見破られてしまいました。

こうした単調で機械的な反応と、GPT-5のまるで人間のような柔軟な対応との差が、結果に大きく影響したのです。

次ページ嘘をつき、嘘を見破るAIたちの時代

<

1

2

3

>

人気記事ランキング

  • TODAY
  • WEEK
  • MONTH

Amazonお買い得品ランキング

スマホ用品

AI・人工知能のニュースartificial-intelligence news

もっと見る

役立つ科学情報

注目の科学ニュースpick up !!