科学を好きな人を増やすメディア、ナゾロジー！世の中にある沢山の不思議を冒険しよう！

Love science , enjoy !

youtubeチャンネルナゾロジー

chatGPTの性能が大幅に低下していると判明！検証された4つの能力の詳細を解説 — chatGPTの性能が大幅に低下していると判明！検証された4つの能力の詳細を解説 / Credit:Canva . ナゾロジー編集部

artificial-intelligence

chatGPTが大幅性能低下！「数学正解率が98％から2％」検証論文を詳しく解説 (2/6)

2023.07.25 18:00:33 Tuesday

前ページchatGPTの性能はバージョンアップにどう反応するのか？

<

1

2

3

4

5

6

>

GPT4の「数学的な能力」は大幅に低下していた

研究では素数を判定する質問を500個行い性能を判定。結果GPT-4の「数学的な能力」は大幅に低下していた — 研究では素数を判定する質問を500個行い性能を判定。結果GPT-4の「数学的な能力」は大幅に低下していた / Credit:Lingjiao Chen et al . How Is ChatGPT’s Behavior Changing over Time? . arXiv (2023)

数学的な能力を調査するにあたって研究者たちは素数にかんする質問をGPT3.5とGPT4に投げかけました。

GPT3.5はいわゆる「無料版」で利用されているもので、GPT4は料金を払うことで利用可能になる「有料版」となり、GPT3.5よりも優れた性能を持つと考えられています。

質問内容は「17077は素数ですか？　段階的に思考して答えて下さい」という数字が素数かどうかの判断を思考過程を含めて回答してもらうものです。

これは素数の値を変えて、合計500回質問を行いました。

この質問にGPTは「まず偶数を排除します、次に・・・」というような思考のステップを述べながら、判断を回答していきます。

結果、上の図のように有料版であるGPT4は3月の時点では97.5%の確率で「YES」と正しい答えを出せたものの6月になると正答率は2.4%にまで低下していました。

答えが「YES」「NO」の2択なためランダムな答えでも正答率は50%になりますが、GPT4は明らかに間違った「NO」という答えにたどり着きました。

研究で行われたChatGPTとのやり取りの一例。 — 研究で行われたChatGPTとのやり取りの一例。 / Credit:Lingjiao Chen et al . How Is ChatGPT’s Behavior Changing over Time? . arXiv (2023)

一方、無料版のGPT3.5は3月の時点で正答率は7.4%に過ぎませんでしたが、6月になると正答率が86.8%にまで上昇していました。

さらに「段階的に思考して答えて下さい」という要求に対しも3月版のGPT4はで思考連鎖を正確に行えており、複数の数学的思考のステップを経て正解となる「YES」に辿り着きました。

しかし6月版では「段階的に思考しろ」という指示が完全に無視され「NO」という間違った答えだけが提示されました。

つまり数学的な能力や数学的な課題を人間の指示通りに作業する能力においても、有料版（GPT4）の性能が急激に低下し、無料版（GPT3.5）の性能が大きく伸びた形になります。

GPTなどの大規模言語モデルはもとから数学的な問題を解くのが得意ではありませんでしたが、すでに存在していた能力が更新によって失われるという事実は衝撃的です。

GPT3.5もGPT4もそもそも最初から理論的な素数の計算を行っていなかったかもしれない — GPT3.5もGPT4もそもそも最初から理論的な素数の計算を行っていなかったかもしれない / Credit:Canva . ナゾロジー編集部

一方、今回の研究に否定的な立場をとっている分析では、異なる意見が述べられています。

プリンストン大学の分析では時期にかかわらずGPT3.5もGPT4もそもそも最初から理論的な素数の計算を行っておらず、計算しているフリをしていただけだと述べられています。

この主張によれば、そもそも計算せずに答えるフリをしているAIの「数学的な性能」を測定するのは、困難となります。

例えるなら、学生が鉛筆サイコロを転がして数学テストの選択問題を回答しているのと同じ状況だと言えるでしょう。

この場合、そもそも考えてすらいない学生の数学的な能力を、テストの点数から判断するのは困難です。

ただ現状、AIが本当に数学的な思考をしていなかったかどうかを知ることはできません。

AIは人間との会話を自然に行うために開発されましたが、複雑化する過程で会話能力以外のさまざまな追加能力を獲得する「創発」を起こしたと考えられています。

AIの創発については不明な点が多く、数学的な能力が更新によってどのような影響を受けるのかも不明です。

唯一言えるのは、更新によって極めて高い確率で正解を選んでいた状態から、極めて高い確率で不正解を選ぶように行動パターンがシフトしたことです。

それをAIの性能低下と言うかどうかは解釈の問題になるでしょう。

ですがより興味深かったのは、デリケートな質問への解答意欲の衰退でした。

次ページGPT4は「デリケートな質問」にはさらに口を閉ざし理由も答えなくなった

<

1

2

3

4

5

6

>

youtubeチャンネルナゾロジー

なぜ雪の結晶はすべて「六角形」なの？身近な疑問を解説

なぜ雪の結晶はすべて「六角形」なの？身近な疑問を解説

『消滅したはずの人間の遺伝子を持つ赤ちゃんが生まれる』この世に存在しない兄弟の子どもを産んだ夫婦

『消滅したはずの人間の遺伝子を持つ赤ちゃんが生まれる』この世に存在しない兄弟の子どもを産んだ夫婦

【歴史で学ぶ量子力学】量子力学を理解しているものは一人もいない？量子力学とは

【歴史で学ぶ量子力学】量子力学を理解しているものは一人もいない？量子力学とは

かわいそう…優しすぎて絶滅した海獣「ステラーカイギュウ」

かわいそう…優しすぎて絶滅した海獣「ステラーカイギュウ」

人気記事ランキング

Amazonお買い得品ランキング

日用品

1位

アタックZERO アタック液体史上最高の清潔力。無菌レベルの消臭力部屋干し詰め替え 2000ｇ

アタックZERO アタック液体史上最高の清潔力。無菌レベルの消臭力部屋干し詰め替え 2000ｇ

2位

エマールハリ感チャージ成分２倍配合！洗うたびシワカタチ回復リフレッシュグリーンの香りつめかえ用１４００ｇ

エマールハリ感チャージ成分２倍配合！洗うたびシワカタチ回復リフレッシュグリーンの香りつめかえ用１４００ｇ

3位

by Amazon ごみ袋半透明シャカシャカタイプ 45L 200枚(100枚×2箱)

by Amazon ごみ袋半透明シャカシャカタイプ 45L 200枚(100枚×2箱)

4位

エマールハリ感チャージ成分２倍配合！洗うたびシワカタチ回復アロマティックブーケの香りつめかえ用１４００ｇ

エマールハリ感チャージ成分２倍配合！洗うたびシワカタチ回復アロマティックブーケの香りつめかえ用１４００ｇ

5位

靴消臭スプレードクターショール靴用消臭・抗菌スプレー大型サイズ

靴消臭スプレードクターショール靴用消臭・抗菌スプレー大型サイズ

スマホ用品

1位

モバイルバッテリー 20000mAh大容量【2025新設計・16ｍｍ超薄モデル】モバイルバッテリー軽量小型急速充電スマホ充電器大容量 3台同時充電 Type-C入出力兼用低電流対応コンパクトで機内持ち込み可旅行/出張/災害用 PSE認証済み安全設計＆回路保護 iPad/iPhone/Android全種機器対応アウトドア/旅行/出張/停電対策/緊急防災に日本語取扱説明書

モバイルバッテリー 20000mAh大容量【2025新設計・16ｍｍ超薄モデル】モバイルバッテリー軽量小型急速充電スマホ充電器大容量 3台同時充電 Type-C入出力兼用低電流対応コンパクトで機内持ち込み可旅行/出張/災害用 PSE認証済み安全設計＆回路保護 iPad/iPhone/Android全種機器対応アウトドア/旅行/出張/停電対策/緊急防災に日本語取扱説明書

2位

無印良品急速充電器 USB-A 2ポート MJ-PA2A LA1PMA3A

無印良品急速充電器 USB-A 2ポート MJ-PA2A LA1PMA3A

3位

スマホホルダー車ワイヤレス充電マグネット【15W急速充電+真空吸盤の最強コンビ】安定性拔群車スマホスタンド【超強磁力】24×N55磁石 Mag-safe 車載【360°回転な台座×多角度自由調節】カー用品車載スマホホルダー LEDライトマグセーフ車載充電器片手操作 1秒で着脱車用品携帯ホルダー折りたたみ式高級合金素材 iPhone&Android多機種と多車種が対応

スマホホルダー車ワイヤレス充電マグネット【15W急速充電+真空吸盤の最強コンビ】安定性拔群車スマホスタンド【超強磁力】24×N55磁石 Mag-safe 車載【360°回転な台座×多角度自由調節】カー用品車載スマホホルダー LEDライトマグセーフ車載充電器片手操作 1秒で着脱車用品携帯ホルダー折りたたみ式高級合金素材 iPhone&Android多機種と多車種が対応

4位

GameSir Tarantula Pro ワイヤレス PC コントローラー, PC/Switch/Switch２/Android/IOS用、ゲーミングコントローラー、GameSir Mag-Res™ TMR Stick付きゲームパッド、ブルートゥースコントローラー、切り替え可能フェイスボタン、9のマッピング可能ボタン、ターボ、MFi、Steam，switch 2対応プロコン

GameSir Tarantula Pro ワイヤレス PC コントローラー, PC/Switch/Switch２/Android/IOS用、ゲーミングコントローラー、GameSir Mag-Res™ TMR Stick付きゲームパッド、ブルートゥースコントローラー、切り替え可能フェイスボタン、9のマッピング可能ボタン、ターボ、MFi、Steam，switch 2対応プロコン

5位

モバイルバッテリー大容量【40000mAh大容量・薄さ2.84cm】IAPOS モバイルバッテリー急速充電 22.5W/20W対応 3台同時充電可能最大4.5A出力 LED電量残量表示 Type-C入出力兼用回路保護低電流モード対応携帯充電器スマホ充電器軽量機内持ち込み可能旅行/出張/アウトドア/キャンプ/停電対策/防災 power bank PSE技術基準適合(ブラック)

モバイルバッテリー大容量【40000mAh大容量・薄さ2.84cm】IAPOS モバイルバッテリー急速充電 22.5W/20W対応 3台同時充電可能最大4.5A出力 LED電量残量表示 Type-C入出力兼用回路保護低電流モード対応携帯充電器スマホ充電器軽量機内持ち込み可能旅行/出張/アウトドア/キャンプ/停電対策/防災 power bank PSE技術基準適合(ブラック)

ゲーム

1位

BIGBIG WON BLITZ2 TMR コントローラー無線/有線接続 TMR ホールジョイスティック 2000Hzポーリングレート 16個のメカニカルスイッチボタン 0.0005秒超低遅延 360°シリコングリップ 1000mAh大容量バッテリーアプリ対応 FPSプロゲーマー向け

BIGBIG WON BLITZ2 TMR コントローラー無線/有線接続 TMR ホールジョイスティック 2000Hzポーリングレート 16個のメカニカルスイッチボタン 0.0005秒超低遅延 360°シリコングリップ 1000mAh大容量バッテリーアプリ対応 FPSプロゲーマー向け

2位

【Switch/Switch 有機ELモテルに対応】ケース iVoler switchに対応収納ケースゲームカード/ケーブル/イヤホンなど全部収納可能防塵防水耐衝撃持ち運び便利ブラック

【Switch/Switch 有機ELモテルに対応】ケース iVoler switchに対応収納ケースゲームカード/ケーブル/イヤホンなど全部収納可能防塵防水耐衝撃持ち運び便利ブラック

3位

ドラゴンクエストトレジャーズ蒼き瞳と大空の羅針盤 -Switch

ドラゴンクエストトレジャーズ蒼き瞳と大空の羅針盤 -Switch

4位

WD&CD Switch2 対応カバー分体式設計保護カバークリアケース PC材質任天堂スイッチ2対応 Switch 2対応薄型軽量透明クリア耐衝撃タンド機能着脱簡単指紋防止傷防止保護カバー

WD&CD Switch2 対応カバー分体式設計保護カバークリアケース PC材質任天堂スイッチ2対応 Switch 2対応薄型軽量透明クリア耐衝撃タンド機能着脱簡単指紋防止傷防止保護カバー

5位

キングダム 68 (ヤングジャンプコミックス)

キングダム 68 (ヤングジャンプコミックス)

小説

1位

プロジェクト・ヘイル・メアリー　上

プロジェクト・ヘイル・メアリー　上

2位

忌録: document X

3位

プロジェクト・ヘイル・メアリー　下

プロジェクト・ヘイル・メアリー　下

4位

ババヤガの夜 (河出文庫)

5位

国宝上青春篇 (朝日文庫)

AI・人工知能のニュースartificial-intelligence news

もっと見る

役立つ科学情報

注目の科学ニュースpick up !!