「意味的に似た問題が同じ解法を必要とするとは限らない」——この当たり前の事実を見落としてきた検索拡張生成(RAG:Retrieval-Augmented Generation、関連文書を検索してモデルに提供する手法)の限界を突き、推論特化の検索方式と強化学習を組み合わせた新手法「RA-RFT(Retrieval-Augmented Reinforcement Fine-Tuning)」が2026年6月11日にarXivで公開されました。Zilin Xiaoらのチームが提案するRA-RFTは、数学推論ベンチマークAIME 2025でGRPO(Group Relative Policy Optimization:グループ相対方針最適化、強化学習の標準的な手法)比7.1ポイントの改善を達成しており、推論認識型の検索が既存の強化学習改善手法と直交する新しい改善軸であることを示しています。
背景と文脈
LLMの数学推論能力を高める手法としては、大きく分けて「学習データの質を上げる」「強化学習の報酬設計を改善する」「テスト時の計算量を増やす」という3方向が研究されてきました。RA-RFTはここに4つ目の方向を加えます。「推論に有用な類似事例を検索で提供する」というアプローチです。
従来のRAGは意味的類似度(Semantic Similarity:埋め込みベクトルの距離)で検索します。これは「似た表現の文書を見つける」には適していますが、数学推論では大きな落とし穴があります。例えば「等差数列の和を求める問題」と「行列のトレースを求める問題」は見た目が全く異なりますが、同じ「等和ペアリング」という推論パターンを使います。逆に、ほぼ同じ文章でも数値を変えると全く異なる解法が必要なケースがあります。意味的類似度ではこの違いが捉えられません。
RA-RFTはこの問題に「推論認識型検索(Reasoning-Aware Retrieval)」で対応します。単純な文章の意味的近さではなく、「推論に使えるかどうか」という基準で類似事例をランク付けする検索器を訓練します。
技術/ビジネス面

RA-RFTの構成は2段階です。第一段階の「Gold-relevance蒸留(Distillation)」では、数学推論に有用な事例を正解とみなし、意味的重複ではなく推論の有用性でコンテキストをランク付けする検索器を訓練します。蒸留(Distillation:大きなモデルや教師シグナルから小さなモデルに知識を転移する手法)を使うことで、この「推論有用性」を検索器に学習させます。
第二段階の「強化微調整(Reinforcement Fine-Tuning:検証可能な報酬で方針を最適化する手法)」では、第一段階で訓練した検索器が取得した類似事例をコンテキストに加えながら、正解を出したら報酬を与える強化学習でモデルを改善します。
性能評価はAIME 2025(AMC/AIME:全米数学コンテスト系列の高難度大会)を用いました。Qwen3-1.7B(Alibabaが公開した小型推論モデル)でGRPO比+7.1ポイント(@32サンプリング)、Qwen3-4BでGRPO比+2.8ポイントを達成しています。研究チームは「推論認識検索は報酬設計や訓練カリキュラムの改善と直交する軸」と述べており、既存の強化学習手法に重ねて適用できる点が実用上の強みです。
これからどうなるか
RA-RFTが示す「検索と強化学習の組み合わせ」というアプローチは、数学推論に限らず広く応用できます。コード生成では「類似した実装パターンの事例を取得して学習させる」、法律文書解析では「同じ論理構造を持つ判例を検索する」といった形で同様の枠組みが使えます。
開発者にとって直接応用できる点もあります。RAGパイプラインを構築している場合、意味的類似度だけでなく「推論や回答生成にとって有用かどうか」という基準でランキングを改善することで、精度向上が狙えます。特に複数ステップの推論が必要なタスク(数学・コード・法律・医療など)では、既存の埋め込みベースの検索に推論有用性のリランキングを加えることが有効な改善手段になりそうです。
まとめ
RA-RFTは「意味が近い事例ではなく推論に有用な事例を検索する」という新しい軸でLLMの推論精度を向上させます。AIME 2025でGRPO比+7.1ポイントという結果は、推論認識型検索が既存の強化学習改善手法と組み合わせて使える独立した改善軸であることを示しています。
参考リンク
アイキャッチ画像: Photo by Google DeepMind on Unsplash
