科学を好きな人を増やすメディア、ナゾロジー！世の中にある沢山の不思議を冒険しよう！

Love science , enjoy !

youtubeチャンネルナゾロジー

AI幻覚は悪化の一途を辿り今後も続く：o3モデルはなぜ間違いが多いのか？ — AI幻覚は悪化の一途を辿り今後も続く：o3モデルはなぜ間違いが多いのか？ / Credit:clip studio . 川勝康弘

artificial-intelligence

AI幻覚は悪化の一途を辿り今後も続く：o3モデルはなぜ間違いが多いのか？

2025.05.12 17:00:38 Monday

推論力は進化したのに、ウソまでパワーアップしてしまったようです。

2025年4月にOpenAIが発表した最新の大規模言語モデル「o3」と「o4-mini」は、これまで以上に長い“思考の連鎖”と高度なツール連携によってかつてない推論力を実現しました。

しかしその後のOpenAI社の調査によって、それら最新のAIがもっともらしく事実でない回答をしてしまう「幻覚（ハルシネーション）」の発生率が従来モデル（o1やo3-mini）より大幅に悪化していることが明らかにりました。

なぜより強力な推論能力を持つ最新モデルで、ハルシネーションが増加してしまったのでしょうか？

OpenAI o3 and o4-mini System Card https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf

youtubeチャンネルナゾロジー

2つのブラックホールが合体すると？ホーキング定理、実証される

2つのブラックホールが合体すると？ホーキング定理、実証される

人類史を終わらせる恐れがある「破局噴火」とは何なのか？

人類史を終わらせる恐れがある「破局噴火」とは何なのか？

臨死体験の正体は死ぬ間際の「爆発的な脳活動」だった

臨死体験の正体は死ぬ間際の「爆発的な脳活動」だった

驚異の低温実験！絶対零度に近づくと物質はどうなる？

驚異の低温実験！絶対零度に近づくと物質はどうなる？

目次

巨大化の次は“思考強化”──推論エンジン誕生の舞台裏

巨大化の次は“思考強化”──推論エンジン誕生の舞台裏 — 巨大化の次は“思考強化”──推論エンジン誕生の舞台裏 / Credit:Canva

近年、AI研究の焦点は単純にモデルを巨大化することから、「推論力」を高める方向へとシフトしています。

従来のGPT-4系モデルがマルチモーダル（テキスト・音声・画像対応）や高速化を追求してきた一方で、OpenAIのoシリーズは複雑な問題解決や論理的思考、コード生成など「考える力」を強化するために設計された系統です。

なぜ推論力の強化が目指されたのでしょうか？

背景には、大規模言語モデル（LLM）が高度な知識を持ちながらも、複数ステップにわたる推論や論理的整合性を要する場面でミスを犯しがちだったことがあります。

モデルを大きくすれば精度は上がるものの、ある段階からは「考え方」を工夫しないと得られる成果に頭打ちが見え始めたのです。

その打開策として生まれたのが、モデル自身により長く深く考えさせるアプローチです。

各モデルの立ち位置と特徴のまとめ — 各モデルの立ち位置と特徴のまとめ / Credit:OpenAI o3 and o4-mini System Card

o3やo4-miniでは回答を出す前に内部で長い「思考の連鎖 (Chain of Thought)」を巡らせ、あたかも人間が頭の中で段取りを踏むように結論を導き出します。

例えば数学の難問やプログラミングのデバッグといった多面的な分析が必要な課題でも、小さなステップに分解して推論するため、より正確な解答を出せるよう設計されています。

また、この新モデルはあらゆるツールを自律的に活用できる点も画期的です。

インターネットでの情報検索、Pythonスクリプトによるデータ解析、画像生成や画像認識といったツールを、必要に応じて自ら判断して使いこなすことで、複雑なタスクをエンドツーエンドで実行できるのです。

視覚情報についても、単に画像を説明するに留まらず「画像と一緒に考える」ことが可能になりました。

例えばホワイトボードに書かれた数式の写真を与えれば、画像を回転・拡大しながら内容を読み取って推論を進めるといった、人間さながらの問題解決も実現しています。

こうした推論力の強化により、最新モデルはさまざまなベンチマークで従来を上回る成績を収めています。

o3はプログラミング競技やビジネス分析などの難問で従来モデル（o1）より重大な誤りが減少し、特にプログラミングやコンサルティング、創造的発想の分野で「分析が緻密で新しい仮説を批判的に評価できる」と高く評価されました。

小型モデルのo4-miniも非常に効率が良く、o1よりプログラミングや数学のベンチマークで高い正解率を示しています。

このように、OpenAIが目指したのは人間のように道具を使いながら深く考え、難問に取り組めるAIです。

その目的は、高度化するユーザーのニーズに応え、より信頼でき有用なAIアシスタントを実現することにありました。

次ページo3モデルは「賢く」でも「間違いが多く」進化した

<

1

2

3

>

人気記事ランキング

Amazonお買い得品ランキング

日用品

1位

エマールハリ感チャージ成分２倍配合！洗うたびシワカタチ回復リフレッシュグリーンの香りつめかえ用１４００ｇ

エマールハリ感チャージ成分２倍配合！洗うたびシワカタチ回復リフレッシュグリーンの香りつめかえ用１４００ｇ

2位

by Amazon ごみ袋半透明シャカシャカタイプ 45L 200枚(100枚×2箱)

by Amazon ごみ袋半透明シャカシャカタイプ 45L 200枚(100枚×2箱)

3位

さらさ洗濯洗剤液体 1900g 無添加植物由来の厳選成分配合ほのかでやさしい柑橘系の香り詰め替え

さらさ洗濯洗剤液体 1900g 無添加植物由来の厳選成分配合ほのかでやさしい柑橘系の香り詰め替え

4位

【カンタン！たのしい！どうぶつ砂絵セット】知育玩具のシルバーバック幼稚園小学校入園入学お祝いプレゼント準備 ([バラエティ])

【カンタン！たのしい！どうぶつ砂絵セット】知育玩具のシルバーバック幼稚園小学校入園入学お祝いプレゼント準備 ([バラエティ])

5位

レック(ポチデザイン) 純水99% ウエットシート手・口ふき「ポチ」 60枚入×20個 (1200枚) 【Amazon.co.jp限定】

レック(ポチデザイン) 純水99% ウエットシート手・口ふき「ポチ」 60枚入×20個 (1200枚) 【Amazon.co.jp限定】

スマホ用品

1位

iphone 充電ケーブル【1M/2M 各２本正規MFi認証品】ライトニングケーブル充電器ケーブル高速データ転送最大2.4A急速充電 lightning ナイロン編み断線防止超高耐久iPhone14/14 Pro/13/13 Pro/12/11/X/8/8plus/7/6/iPad 各種対応

iphone 充電ケーブル【1M/2M 各２本正規MFi認証品】ライトニングケーブル充電器ケーブル高速データ転送最大2.4A急速充電 lightning ナイロン編み断線防止超高耐久iPhone14/14 Pro/13/13 Pro/12/11/X/8/8plus/7/6/iPad 各種対応

2位

エレコムモバイルバッテリー 10000mAh 15W 3ポート Type-C×1 USB-A×2 microB(入力専用) 機内持ち込み可 PSE技術基準適合しろちゃん(ホワイト×ブラック) EC-C37WF

エレコムモバイルバッテリー 10000mAh 15W 3ポート Type-C×1 USB-A×2 microB(入力専用) 機内持ち込み可 PSE技術基準適合しろちゃん(ホワイト×ブラック) EC-C37WF

3位

スマホホルダー車ワイヤレス充電マグネット【15W急速充電+真空吸盤の最強コンビ】安定性拔群車スマホスタンド【超強磁力】24×N55磁石 Mag-safe 車載【360°回転な台座×多角度自由調節】カー用品車載スマホホルダー LEDライトマグセーフ車載充電器片手操作 1秒で着脱車用品携帯ホルダー折りたたみ式高級合金素材 iPhone&Android多機種と多車種が対応

スマホホルダー車ワイヤレス充電マグネット【15W急速充電+真空吸盤の最強コンビ】安定性拔群車スマホスタンド【超強磁力】24×N55磁石 Mag-safe 車載【360°回転な台座×多角度自由調節】カー用品車載スマホホルダー LEDライトマグセーフ車載充電器片手操作 1秒で着脱車用品携帯ホルダー折りたたみ式高級合金素材 iPhone&Android多機種と多車種が対応

4位

GameSir Tarantula Pro ワイヤレス PC コントローラー, PC/Switch/Switch２/Android/IOS用、ゲーミングコントローラー、GameSir Mag-Res™ TMR Stick付きゲームパッド、ブルートゥースコントローラー、切り替え可能フェイスボタン、9のマッピング可能ボタン、ターボ、MFi、Steam，switch 2対応プロコン

GameSir Tarantula Pro ワイヤレス PC コントローラー, PC/Switch/Switch２/Android/IOS用、ゲーミングコントローラー、GameSir Mag-Res™ TMR Stick付きゲームパッド、ブルートゥースコントローラー、切り替え可能フェイスボタン、9のマッピング可能ボタン、ターボ、MFi、Steam，switch 2対応プロコン

5位

スマホ防水ケース【完全防水・暗闇で光る蓄光設計】最大7.9インチ対応 IPX8+ 防水スマホケースタッチ操作高透過率画面指紋認証/顔認証水中撮影ロックがしやすい両手解放ストラップ付き長さ調整可能携帯ケースお風呂海プール釣り雨潜水水泳温泉適用 iPhone/AQUOS/ARROWS/Pixel/Xperia/Galaxyに対応

スマホ防水ケース【完全防水・暗闇で光る蓄光設計】最大7.9インチ対応 IPX8+ 防水スマホケースタッチ操作高透過率画面指紋認証/顔認証水中撮影ロックがしやすい両手解放ストラップ付き長さ調整可能携帯ケースお風呂海プール釣り雨潜水水泳温泉適用 iPhone/AQUOS/ARROWS/Pixel/Xperia/Galaxyに対応

ゲーム

1位

【任天堂純正品】Joy-Con充電グリップ

【任天堂純正品】Joy-Con充電グリップ

2位

【2025年新登場】For Switch 2 ドックテレビ接続出力 4K@60Hz スイッチドック直接にTV出力ドック多機能 Type-C to HDMI変換軽量化高性能チップ遅延なし持ち運び便利小型アダプター

【2025年新登場】For Switch 2 ドックテレビ接続出力 4K@60Hz スイッチドック直接にTV出力ドック多機能 Type-C to HDMI変換軽量化高性能チップ遅延なし持ち運び便利小型アダプター

3位

ドラゴンクエストトレジャーズ蒼き瞳と大空の羅針盤 -Switch

ドラゴンクエストトレジャーズ蒼き瞳と大空の羅針盤 -Switch

4位

エレコム Nintendo Switch2専用セミハードポーチ EVA素材耐衝撃スリム設計ソフト収納ポケット付きダブルファスナーブラック GM-NS225EVSBK

エレコム Nintendo Switch2専用セミハードポーチ EVA素材耐衝撃スリム設計ソフト収納ポケット付きダブルファスナーブラック GM-NS225EVSBK

5位

マジカルクラフト猫と魔法のドレス -Switch 【早期購入特典】ときめき着せかえ帖同梱

マジカルクラフト猫と魔法のドレス -Switch 【早期購入特典】ときめき着せかえ帖同梱

小説

1位

プロジェクト・ヘイル・メアリー　上

プロジェクト・ヘイル・メアリー　上

2位

プロジェクト・ヘイル・メアリー　下

プロジェクト・ヘイル・メアリー　下

3位

忌録: document X

4位

国宝上青春篇 (朝日文庫)

5位

文庫版　近畿地方のある場所について (角川文庫)

文庫版　近畿地方のある場所について (角川文庫)

AI・人工知能のニュースartificial-intelligence news

もっと見る

役立つ科学情報

注目の科学ニュースpick up !!