AIが国際数学オリンピックで金メダル水準を超えました。2026年6月11日、MiniMax社と北京大学・清華大学などの共同研究チームがarXivに投稿した論文「MaxProof: Scaling Mathematical Proof with Generative-Verifier RL」は、国際数学オリンピック(IMO:世界100カ国以上が参加する中高生向け最高峰の数学競技)2025で35/42点、全米数学オリンピック(USAMO)2026で36/42点を達成し、いずれも人間の金メダル基準を上回ったと報告しています。証明の生成・検証・修復という3つの役割を同一モデルが担う「テスト時スケーリング(Test-Time Scaling:推論フェーズで計算量を動的に増やして精度を高める手法)」を採用しており、AIによる形式的な数学証明という長年の課題が大きく前進しました。
背景と文脈
AIと競技数学の交差点は、ここ数年で急速に発展してきました。2024年にはDeepMindのAlphaGeometryがIMOの幾何問題を解き、OpenAI o1はAIMEなどの高難度算数コンテストで上位校生レベルに達しました。しかしこれらは「特定タイプの問題なら解ける」という段階に留まっており、IMO全問題を通じた金メダル相当の成績には届いていませんでした。
IMOの課題が難しいのは、代数・組み合わせ・数論・幾何にわたる6問を42点満点で解くだけでなく、「形式証明(Formal Proof:計算機が論理的に検証できるステップで記述された証明)」として出力する必要がある点です。LLMが自然言語で書く解答は人間には正しく見えても、形式的な証明チェッカーを通らないケースが多く、この乖離を埋めることが研究上の大きな壁でした。
MaxProofはこの壁に対し、証明の生成・検証・修復を同一モデルMiniMax-M3に担わせる設計を提案します。IMO 2025で金メダル基準(例年29点前後)を6点上回る35点、USAMO 2026でも36点を記録し、2つの異なる大会で一貫して高水準を示した点が特に評価されています。
技術/ビジネス面

MaxProofの核心は「MiniMax-M3」モデルと、4層の防御設計を持つ生成的検証器(Generative Verifier)にあります。
訓練段階では3つの専門能力を一体学習します。Proof Expertは強化学習(RL:報酬シグナルから行動を最適化する手法)で証明生成を担い、Verifier Expertは誤り検出に特化します。Fixer Expertは拒否サンプリング(正解のみを訓練データとして使う手法)による微調整で証明修復を学びます。
推論時は「不正な証明のフィルタリング → 正規化 → 複数判定者スコアリング → 悲観的集約」という4層パイプラインが機能します。これにより報酬ハッキング(検証器を誤魔化してスコアを水増しする問題行動)を抑制します。具体的なループはN=32個の候補証明を生成し、各候補を4回検証、上位4つの親候補にPATCH/REWRITEを適用、3票制トーナメントで最終証明を選ぶ流れです。
比較実験では、MaxProofなしのワンショット生成でIMO 2025が27点、USAMO 2026が26点でした。MaxProofを適用するとそれぞれ+8点・+10点の上乗せを達成しており、テスト時スケーリングが競技数学においても強力に機能することを実証しています。
これからどうなるか
「AIが数学の金メダリストを超えた」という象徴的な意義の先に、実用的な波及効果が見えます。
まずソフトウェアの形式検証(Formal Verification:コードが仕様を満たすことを数学的に証明する手法)への応用です。形式検証は従来、専門家コストが高くプロダクト開発での普及が進みませんでした。MaxProofが示すような自動修復ループがツールに組み込まれれば、セキュリティクリティカルなコードや分散システムの不変条件証明をAI支援で進める環境が整います。既存のLean 4やCoqといった証明支援系との統合も研究上の自然な次のステップです。
開発者の日常業務でも示唆があります。「生成→検証→修復」のループはCIパイプラインのテスト→デバッグサイクルと構造的に類似しています。単一モデルに生成・批評・修正の複数役割を与えるという設計思想は、コードエージェントの精度向上を狙う実装で直接参考になるはずです。
まとめ
MaxProofはIMO 2025・USAMO 2026の双方で人間の金メダル基準を超えた初のAI数学証明システムです。テスト時スケーリングによる生成・検証・修復の一体設計は、ソフトウェア形式検証や自動デバッグへの応用が期待されます。AI数学証明研究の新たな頂点を示した成果です。
参考リンク
アイキャッチ画像: Photo by Bozhin Karaivanov on Unsplash
