OpenDeepThink: 並列推論でコーディングEloが+405

コーディングタスクで大規模言語モデル（LLM：Large Language Model、大量のテキストデータで学習し文章生成・推論を行う深層学習モデル）の推論性能を大幅に引き上げる手法「OpenDeepThink」が、2026年5月15日付けで arXiv に公開されました（arXiv:2605.15177）。Google の Gemini 3.1 Pro を使った競技プログラミングの評価では、8ラウンドの適用で Codeforces Elo（競技プログラミングの実力を数値化するレーティングシステム）が +405 向上しました。単一の推論チェーンを伸ばす従来手法とは異なり、複数の回答候補を並列生成して比較・淘汰するという進化的なアプローチが核心です。

背景と文脈
技術/ビジネス面
これからどうなるか
まとめ
参考リンク

背景と文脈

LLM の推論性能を向上させる手法には大きく分けて二方向あります。一つはモデルを大きくする「学習時スケーリング」、もう一つは推論時に計算リソースを多く使う「推論時スケーリング（テスト時スケーリング）」です。推論時スケーリングには「もっとゆっくり考えさせる」（一本の思考チェーンを長くする）と「複数の候補を作って最良を選ぶ」という二方向があります。

DeepSeek-R1 や QwQ のような「長考モデル」がチェーンを長くする手法の代表格として注目されてきました。しかし、一本道の推論を深掘りするだけでは、初期の解き方の方向性が間違っていた場合に回復しにくいという欠点があります。OpenDeepThink が挑むのはまさにこの問題です。

競技プログラミングの世界では Codeforces というオンラインジャッジが代表的な評価プラットフォームとして機能し、参加者はレーティング（Elo）に基づいてランク付けされます。LLM で競技プログラミングを解かせる研究は以前から存在しましたが、+405 という改善幅は既存の自動的なテスト時スケーリング手法と比べても顕著です。

技術/ビジネス面

graphical user interface — Photo by 2H Media on Unsplash

OpenDeepThink の手法は「集団ベースの進化」と呼べるアプローチです。まず複数の回答候補を並列生成し、Bradley-Terry モデル（スポーツの勝敗データなどから強さのランキングを推定する統計手法）を使って LLM が候補をペアで比較したときの「選ばれやすさ」をスコア化します。このスコアでグローバルランキングを作り、上位 3/4 の候補には自然言語によるフィードバックを与えて変異（mutation）させ、下位 1/4 を廃棄します。これをラウンドごとに繰り返すことで候補群が徐々に高品質に収束します。

この手法の重要な特性は、Ground Truth（正解データ）を必要としない点です。LLM 同士がペア比較を行うだけでランキングが形成されるため、検証可能な正解が得にくい問題にも応用できる可能性があります。ただし著者らは「客観的に検証できるドメイン（コーディングなど）では有効だが、主観的評価が中心のドメインでは逆効果になった」とも報告しており、適用範囲の見極めが必要です。

今回の研究に合わせて CF-73 という新ベンチマーク（Codeforces から厳選された 73 問で構成される LLM の競技プログラミング性能評価セット）も公開されました。今後の比較研究で活用される可能性があります。

これからどうなるか

この研究の注目点は「1つの強いモデルに頼るのではなく、複数の試行から最良を選ぶ」という考え方が実用レベルで成立し始めたことを示した点です。追加のファインチューニング（fine-tuning：特定タスクに合わせてモデルを追加学習させること）なしに既存モデルの性能を引き上げられるため、モデルを差し替えた場合でも再チューニング不要で使える可能性があります。

コードレビューや自動テスト修正のような「正しさを確認しやすいタスク」では、CI/CD パイプライン内で OpenDeepThink 型の並列評価を組み込むことで、同一の API コストで出力品質を上げられるかもしれません。ラウンド数を少数に絞れば実装の現実的な範囲に収まります。

まとめ

arXiv に公開された OpenDeepThink は、並列に生成した候補を Bradley-Terry モデルで評価・淘汰する進化的推論手法です。Gemini 3.1 Pro の競技プログラミング Elo が +405 改善するという結果は、テスト時スケーリングの実用性を示す有力な証拠といえます。

参考リンク

OpenDeepThink: Parallel Reasoning via Bradley-Terry Aggregation（arXiv:2605.15177）

アイキャッチ画像: Photo by Google DeepMind on Unsplash