科学を好きな人を増やすメディア、ナゾロジー！世の中にある沢山の不思議を冒険しよう！

Love science , enjoy !

youtubeチャンネルナゾロジー

chatGPTの性能が大幅に低下していると判明！検証された4つの能力の詳細を解説 — chatGPTの性能が大幅に低下していると判明！検証された4つの能力の詳細を解説 / Credit:Canva . ナゾロジー編集部

artificial-intelligence

chatGPTが大幅性能低下！「数学正解率が98％から2％」検証論文を詳しく解説

2023.07.25 18:00:33 Tuesday

高度なAIはパッチを当てるのも難しいようです。

米国のスタンフォード大学で行われた研究によって、chatGPTのいくつかの性能がここ数カ月の間に大幅に低下している可能性が示されました。

また性能低下にともない、同じ質問に対して3月と6月の間で大幅に異なる結果が出力されていることも明らかになりました。

ビジネスや学問の場での活用が進みつつあるGPTに、いったい何が起きたのでしょうか？

今回はchatGPTの性能が低下しているとするスタンフォード大学の実験結果に加えて、性能低下は起きていないと主張するプリンストン大学の研究者たちの見解も同時に紹介しようと思います。

研究内容の詳細は2023年7月18日にプレプリントサーバーである『arXiv』にて公開されました。

Is ChatGPT’s Behavior Changing over Time? Researchers Evaluate the March 2023 and June 2023 Versions of GPT-3.5 and GPT-4 on Four Diverse Tasks https://www.marktechpost.com/2023/07/24/is-chatgpts-behavior-changing-over-time-researchers-evaluate-the-march-2023-and-june-2023-versions-of-gpt-3-5-and-gpt-4-on-four-diverse-tasks/

How Is ChatGPT’s Behavior Changing over Time? https://arxiv.org/abs/2307.09009

youtubeチャンネルナゾロジー

ADHDの人が先延ばしにする理由

ADHDの人が先延ばしにする理由

ジャイアントインパクトを引き起こした「原始惑星テイア」は太平洋に埋もれている可能性がある #shorts

ジャイアントインパクトを引き起こした「原始惑星テイア」は太平洋に埋もれている可能性がある #shorts

機内減圧で起きた飛行機事故「1999年リアジェット35墜落事故」

機内減圧で起きた飛行機事故「1999年リアジェット35墜落事故」

ダニの死骸の匂い！？天日干しした洗濯物の「お日様の匂い」の正体を解説 #shorts

ダニの死骸の匂い！？天日干しした洗濯物の「お日様の匂い」の正体を解説 #shorts

目次

chatGPTの性能はバージョンアップにどう反応するのか？

chatGPTの性能はバージョンアップにどう反応するのか？ — chatGPTの性能はバージョンアップにどう反応するのか？ / Credit:Canva . ナゾロジー編集部

GPT-3.5 や GPT-4 などの大規模言語モデル (LLM)は、設計の変更だけでなく、データやユーザーからのフィードバックに基づいて、時間の経過とともに更新できます。

最近では、より高性能なGPT-4 が医学や法律などの専門分野の難しい試験に合格することが示されました。

ただし、GPT-3.5 および GPT-4 がいつ、どのように更新されるかは現時点では非公開であり、安定して仕事に使うには困難がつきまといます。

特に質問（プロンプト）に対する答えの(精度や形式などが突然変化すると、続く質問を入力しても、内容の整合性がとれなくなってしまいます。

また更新の前後では一般に同じ質問に対してGPTが異なる内容を回答するため、答えの一貫性や再現性を維持することが困難になります。

さらに、そもそもGPT4 のような LLM サービスが時間の経過とともに一貫して「改善」されているかどうかも興味深い問題です。

というのも現在、chatGPTなどの生成型AIは社会的に大きく注目されるようになっており、AIに要求される項目は極めて多岐に及んでいます。

（※かつては会話を目的に開発されたかため「会話型AI」と呼ばれていましたが、近年では会話以外も多様な能力が発見されていることからから生成型AIと呼ばれるようになっています）

そのためAIの開発元がそれらの問題を回避するような「変更」を行った場合、AIの性能に不都合な結果を及ぼしかねません。

研究者たちも「いくつかの問題を改善するためのモデル変更が、他の機能に悪影響を与える可能性がある」と述べています。

chatGPTは人間の脳を模した疑似的な神経ネットワークによって構成されているため、通常のプログラムのように「パッチ」を当てても素直に機能が改善するとは限らないからです。

人間の脳も特定の情報を覚えれば賢くなるわけではないのと原理は同じです。

そこで今回、スタンフォード大学の研究者たちは、chatGPTに時間経過による性能の違いがあるかを調べることにしました。

調査に当たっては

①数学的な能力

②男女問題などデリケートな質問に答える意欲

③プログラムのコード生成能力

④視覚的な推論能力

の4つの能力が2023年の「3月」と「6月」の間でどのように変化したかを調査しました。

すると驚いたことに、結果は悲惨なものになりました。

次ページGPT4の「数学的な能力」は大幅に低下していた

<

1

2

3

4

5

6

>

人気記事ランキング

Amazonお買い得品ランキング

日用品

1位

アタックZERO アタック液体史上最高の清潔力。無菌レベルの消臭力部屋干し詰め替え 2000ｇ

アタックZERO アタック液体史上最高の清潔力。無菌レベルの消臭力部屋干し詰め替え 2000ｇ

2位

エマールハリ感チャージ成分２倍配合！洗うたびシワカタチ回復リフレッシュグリーンの香りつめかえ用１４００ｇ

エマールハリ感チャージ成分２倍配合！洗うたびシワカタチ回復リフレッシュグリーンの香りつめかえ用１４００ｇ

3位

by Amazon ごみ袋半透明シャカシャカタイプ 45L 200枚(100枚×2箱)

by Amazon ごみ袋半透明シャカシャカタイプ 45L 200枚(100枚×2箱)

4位

エマールハリ感チャージ成分２倍配合！洗うたびシワカタチ回復アロマティックブーケの香りつめかえ用１４００ｇ

エマールハリ感チャージ成分２倍配合！洗うたびシワカタチ回復アロマティックブーケの香りつめかえ用１４００ｇ

5位

靴消臭スプレードクターショール靴用消臭・抗菌スプレー大型サイズ

靴消臭スプレードクターショール靴用消臭・抗菌スプレー大型サイズ

スマホ用品

1位

モバイルバッテリー 20000mAh大容量【2025新設計・16ｍｍ超薄モデル】モバイルバッテリー軽量小型急速充電スマホ充電器大容量 3台同時充電 Type-C入出力兼用低電流対応コンパクトで機内持ち込み可旅行/出張/災害用 PSE認証済み安全設計＆回路保護 iPad/iPhone/Android全種機器対応アウトドア/旅行/出張/停電対策/緊急防災に日本語取扱説明書

モバイルバッテリー 20000mAh大容量【2025新設計・16ｍｍ超薄モデル】モバイルバッテリー軽量小型急速充電スマホ充電器大容量 3台同時充電 Type-C入出力兼用低電流対応コンパクトで機内持ち込み可旅行/出張/災害用 PSE認証済み安全設計＆回路保護 iPad/iPhone/Android全種機器対応アウトドア/旅行/出張/停電対策/緊急防災に日本語取扱説明書

2位

for Apple Watch バンド 45mm 44mm 42mm 46mm 49mm 41mm 40mm 38mm 保護ケース付きステンレス製アップルウォッチ交換ベルト Apple Watch 9/8/7/SE2/6/SE/5/4/3/2/1/10/Ultra 2/Ultra対応 iWatch バンドおしゃれ長さ調整器具付き（42/44/45mm, シルバー）

for Apple Watch バンド 45mm 44mm 42mm 46mm 49mm 41mm 40mm 38mm 保護ケース付きステンレス製アップルウォッチ交換ベルト Apple Watch 9/8/7/SE2/6/SE/5/4/3/2/1/10/Ultra 2/Ultra対応 iWatch バンドおしゃれ長さ調整器具付き（42/44/45mm, シルバー）

3位

モバイルバッテリー大容量【40000mAh・5台同時充電・22.5W急速充電】モバイルバッテリー軽量小型スマホ充電器携帯充電器 LCDディスプレイ残量表示 Type-C入出力兼用 2USB出力ポート最大3A出力 PSE認証済安全設計&回路保護 iOS/Android各種スマホ対応アウトドア/キャンプ旅行/出張/停電対策/防災

モバイルバッテリー大容量【40000mAh・5台同時充電・22.5W急速充電】モバイルバッテリー軽量小型スマホ充電器携帯充電器 LCDディスプレイ残量表示 Type-C入出力兼用 2USB出力ポート最大3A出力 PSE認証済安全設計&回路保護 iOS/Android各種スマホ対応アウトドア/キャンプ旅行/出張/停電対策/防災

4位

GameSir Tarantula Pro ワイヤレス PC コントローラー, PC/Switch/Switch２/Android/IOS用、ゲーミングコントローラー、GameSir Mag-Res™ TMR Stick付きゲームパッド、ブルートゥースコントローラー、切り替え可能フェイスボタン、9のマッピング可能ボタン、ターボ、MFi、Steam，switch 2対応プロコン

GameSir Tarantula Pro ワイヤレス PC コントローラー, PC/Switch/Switch２/Android/IOS用、ゲーミングコントローラー、GameSir Mag-Res™ TMR Stick付きゲームパッド、ブルートゥースコントローラー、切り替え可能フェイスボタン、9のマッピング可能ボタン、ターボ、MFi、Steam，switch 2対応プロコン

5位

スマホホルダー車ワイヤレス充電マグネット【15W急速充電+真空吸盤の最強コンビ】安定性拔群車スマホスタンド【超強磁力】24×N55磁石 Mag-safe 車載【360°回転な台座×多角度自由調節】カー用品車載スマホホルダー LEDライトマグセーフ車載充電器片手操作 1秒で着脱車用品携帯ホルダー折りたたみ式高級合金素材 iPhone&Android多機種と多車種が対応

スマホホルダー車ワイヤレス充電マグネット【15W急速充電+真空吸盤の最強コンビ】安定性拔群車スマホスタンド【超強磁力】24×N55磁石 Mag-safe 車載【360°回転な台座×多角度自由調節】カー用品車載スマホホルダー LEDライトマグセーフ車載充電器片手操作 1秒で着脱車用品携帯ホルダー折りたたみ式高級合金素材 iPhone&Android多機種と多車種が対応

ゲーム

1位

BIGBIG WON BLITZ2 TMR コントローラー無線/有線接続 TMR ホールジョイスティック 2000Hzポーリングレート 16個のメカニカルスイッチボタン 0.0005秒超低遅延 360°シリコングリップ 1000mAh大容量バッテリーアプリ対応 FPSプロゲーマー向け

BIGBIG WON BLITZ2 TMR コントローラー無線/有線接続 TMR ホールジョイスティック 2000Hzポーリングレート 16個のメカニカルスイッチボタン 0.0005秒超低遅延 360°シリコングリップ 1000mAh大容量バッテリーアプリ対応 FPSプロゲーマー向け

2位

【Switch/Switch 有機ELモテルに対応】ケース iVoler switchに対応収納ケースゲームカード/ケーブル/イヤホンなど全部収納可能防塵防水耐衝撃持ち運び便利ブラック

【Switch/Switch 有機ELモテルに対応】ケース iVoler switchに対応収納ケースゲームカード/ケーブル/イヤホンなど全部収納可能防塵防水耐衝撃持ち運び便利ブラック

3位

ドラゴンクエストトレジャーズ蒼き瞳と大空の羅針盤 -Switch

ドラゴンクエストトレジャーズ蒼き瞳と大空の羅針盤 -Switch

4位

WD&CD Switch2 対応カバー分体式設計保護カバークリアケース PC材質任天堂スイッチ2対応 Switch 2対応薄型軽量透明クリア耐衝撃タンド機能着脱簡単指紋防止傷防止保護カバー

WD&CD Switch2 対応カバー分体式設計保護カバークリアケース PC材質任天堂スイッチ2対応 Switch 2対応薄型軽量透明クリア耐衝撃タンド機能着脱簡単指紋防止傷防止保護カバー

5位

キングダム 68 (ヤングジャンプコミックス)

キングダム 68 (ヤングジャンプコミックス)

小説

1位

プロジェクト・ヘイル・メアリー　上

プロジェクト・ヘイル・メアリー　上

2位

忌録: document X

3位

プロジェクト・ヘイル・メアリー　下

プロジェクト・ヘイル・メアリー　下

4位

ババヤガの夜 (河出文庫)

5位

国宝上青春篇 (朝日文庫)

AI・人工知能のニュースartificial-intelligence news

もっと見る

役立つ科学情報

注目の科学ニュースpick up !!