AIが数学オリンピアードで「金メダル」——30億パラメータの統一スケーリングが示す推論の新地平

2026年5月、AIが国際数学オリンピアード（IMO）2025と国際物理オリンピアード（IPhO）の両大会で金メダル水準の成績を達成した。Yafu Liら28名の研究チームが公開した論文「Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling」がその成果を報告している。30億パラメータ規模のモデルに段階的なトレーニングを組み合わせるだけで、従来は巨大モデルにしか届かなかった推論水準へ到達できたと示した点が、この研究の核心だ。特定企業の独占技術ではなく、アカデミア発のオープンな手法がトップ水準を塗り替えた。

背景と文脈
技術/ビジネス面
これからどうなるか
まとめ
参考リンク

背景と文脈

AIが数学オリンピアードに挑む取り組みは、2023年ごろから本格化した。国際数学オリンピアード（IMO）は高校生向けの大会だが、その問題は数学者でも数時間から数日かかる難問ばかりだ。単なる計算ではなく、新しい補題を見つけ、証明を組み立てる能力——「推論力」の試金石として、AI研究者が注目してきた。

2024年、Google DeepMindのGeminiが「Deep Think」モードでIMOの銀メダル水準に到達した。OpenAIのモデルも続いて同様の成績を達成し、AI×数学の競争が激化した。しかしこれらの成果は、極めて大規模なモデルへの莫大な計算リソース投入によって実現されていた。

今回の研究が問い直したのは「大きければよい」という前提だ。著者らは、30B（30億）パラメータの推論バックボーンモデルを出発点として、特定の手順で追加学習させた「SU-01」を開発した。IMO 2025、USAMO 2026（全米数学オリンピアード）、IPhO 2024・2025（物理オリンピアード）の4大会で金メダル相当を達成し、複数の科目・大会をまたいで同水準を実現したのは初の事例となる。

IMOでの金メダルは全問正解相当ではなく、参加者上位数%に与えられる基準だ。SU-01がこの水準に達したことは、特定問題への過学習ではなく、幅広い難問への対応力を示している。問題は暗記では解けない。初見の状況で論理を組み立て、証明を完成させる能力が問われるため、AIの「汎化した推論力」を測るベンチマークとして機能する。

技術/ビジネス面

a blackboard with a lot of writing on it

SU-01のトレーニングは3段階で構成される。

第1段階は「逆パープレキシティ（Reverse-Perplexity）カリキュラム」を使ったSFT（教師あり微調整）だ。約34万件の問題と解法ペアを収集し、トークン数8000以下のものを学習データとした。難しい問題から先に学ばせる「逆カリキュラム」で、証明を段階的に組み立て、途中で自己チェックする行動をモデルが習得する。

第2段階は2段構成の強化学習だ。まず検証可能な報酬を使ったRL（強化学習）でモデルを鍛え、次に「証明レベルのRL」を適用する。最終答えの正誤だけでなく、推論の各ステップが正しいかを細かく評価するフィードバックで、推論プロセス全体の質を高める。

第3段階はテスト時スケーリング（Test-Time Scaling）だ。推論時に計算リソースを追加投入し、複数の解法候補を生成して最良のものを選ぶ。この手法の核心は長い推論チェーンの安定した処理にある。SU-01は10万トークンを超える推論過程でも安定した結果を出す。従来モデルが途中で推論を打ち切りがちだった弱点を、明示的な長距離推論訓練で克服した。

研究チームには山東大学、香港大学、京都大学など国際的な研究機関の28名が参加しており、論文はオープンアクセスで公開されている。

これからどうなるか

この成果が示す最大の含意は「モデルの規模よりトレーニング設計が鍵」という可能性だ。30B規模のモデルがIMO金メダル水準に到達したことで、より多くの研究者・企業がこの水準を追試・改良できる環境が整う。

応用先として即座に見えてくるのは、定理証明の自動化だ。数学・論理学の命題を自動で証明・検証するシステムへの組み込みが期待される。ソフトウェア検証、科学論文の検証補助、数学教育での解法ガイドなど、高度な推論を必要とする領域での実用化が加速するだろう。

一方、慎重に見るべき点もある。テスト時スケーリングは推論コストを大きく増やすため、大量処理や低遅延が求められる環境には向かない。「オリンピアード問題が解ける」ことと「汎用的な数学的理解を持つ」ことは別の話でもある。特定ベンチマークへの最適化という批判は、この分野で繰り返し提起されてきた。

それでも、シンプルで再現可能な手法が最高峰の数学競技水準を達成したという事実は重い。AIが証明できる命題の範囲が広がるにつれ、「証明できる＝正しい」という新しい知識検証の手段としてのAIの役割も見えてくる。

まとめ

30億パラメータのAIモデルが、逆カリキュラムSFT・強化学習・テスト時スケーリングを組み合わせた統一手法でIMO・IPhOの金メダル水準を達成した。巨大モデルに頼らなくても高度な数学推論は実現できると示した今回の成果は、AI推論研究の方向性を変える可能性がある。今後は定理証明や科学論文検証への応用が進むと見られる。

参考リンク

アイキャッチ画像: Photo by Egor Komarov on Unsplash