正解データなしでLLMをRL改善するRiVERフレームワーク

LLMを強化学習（RL：Reinforcement Learning、試行錯誤から報酬を得て学習する手法）で改善するには、通常「正解」となる教師データが必要です。しかしコードの最適化や競技プログラミングのような領域では、複数の正解が存在したり正解自体が定義しにくかったりします。arXivに公開された論文「Reinforcement Learning without Ground-Truth Solutions can Improve LLMs」は、RiVER（Ranking-induced VERifiable framework）と呼ぶ手法を提案し、正解なしのスコアベースタスクでLLMを訓練しながら、正解が必要な別のベンチマークでも2〜3.5%の性能向上を達成したと報告しています。

背景と文脈
技術/ビジネス面
これからどうなるか
まとめ
参考リンク

背景と文脈

LLMの能力向上に強化学習を活用する流れは、RLHF（Reinforcement Learning from Human Feedback、人間のフィードバックに基づく強化学習）の成功以来、研究の主要なテーマになっています。その後、DPO（Direct Preference Optimization、選好データを直接使って最適化する手法）やRLVR（Reinforcement Learning from Verifiable Rewards、検証可能な報酬から学習）など派生手法も登場しました。共通するのは、「良い出力」と「悪い出力」を区別するシグナルが必要という点です。

コード生成の場合、「このコードはテストケースを通るか」というシグナルが明確なため、RL訓練が比較的容易です。しかし競技プログラミングや最適化問題では、単に正解するだけでなく「どれだけ効率よく解けるか」という連続的なスコアが評価軸となります。この場合、正誤の二値ではなくスコアの大小という連続値を報酬として使う設計が必要で、従来手法では対処が難しい課題がありました。

また、スコアベースのRL訓練では「スケール支配」（高スコアのサンプルが圧倒的に学習を支配してしまう問題）と「頻度支配」（同じ解法が頻繁に出てきて多様性が失われる問題）という2つの技術的課題が存在し、これも解決が求められていました。

技術/ビジネス面

black laptop computer turned-on displaying source code on table — Photo by Jantine Doornbos on Unsplash

RiVERは3つの核心的な設計で上述の課題に対処します。第一に、スコアベースの最適化タスクを使って「正解不要の訓練環境」を構築します。AtCoderの競技プログラミング問題を訓練データとして活用しており、実行結果のスコアが連続値の教師信号として機能します。第二に、「スケール支配」と「頻度支配」に対処するため、インスタンス間の比較と上位ソルバーの強調を行う「キャリブレーション済みの報酬設計」を採用しています。

実験ではQwen3-8BとGLM-Z1-9Bという2つのモデルを使用し、ALE（AtCoder Level Evaluation、競技プログラミング問題の難易度別評価指標）で約8〜9%の性能改善を達成しています。

注目すべきは「転移性」です。正解なしのAtCoderで訓練したにもかかわらず、正解が必要な他のベンチマーク（コーディング・数学など）でも2〜3.5%の改善が見られました。研究者たちはこれを、RiVERが問題を解く一般的な推論能力を鍛えているためと考えています。対照的に、基本的なRL手法（単純なスコアベース報酬）では他のベンチマークへの改善転移は確認できなかったとしています。

これからどうなるか

「正解データなし」のRL訓練が機能するという知見は、訓練データの調達コストという実用上の制約を緩和する可能性を持っています。正解ラベルの付与には専門家の時間が必要で、特定領域では大量のラベルデータを用意すること自体がボトルネックになっています。スコアベースのシグナルさえあれば訓練できるなら、こうした領域へのRL適用範囲が広がります。

開発者の観点では、自社のコード生成・コードレビューシステムの改善に応用できる考え方です。「テストケースの通過率」や「実行時間」など測定可能なスコアを報酬にしてモデルをファインチューニングする道筋が、ラベルデータなしでも成立する可能性を示しています。特にカスタムのコーディングタスクや社内ツールへの最適化で、この発想は実務的な価値を持ちます。

課題としては、実験がAtCoderという特定領域に限られており、他の「スコアで評価できるが正解が一意でない」タスクへの汎化がどこまで成立するかはまだ未検証です。報酬設計のキャリブレーション方法も重要な変数で、この部分の詳細な理解と移植が実用化の鍵になるでしょう。

まとめ

RiVERは正解ラベルなしのスコアベースタスクでLLMをRL訓練するフレームワークです。AtCoderで訓練したモデルがALE評価で8〜9%向上し、他のベンチマークでも2〜3.5%の改善が転移しています。正解データの調達コストという制約を緩和する可能性があり、コード生成最適化への応用が期待されます。

参考リンク

Reinforcement Learning without Ground-Truth Solutions can Improve LLMs (arXiv:2606.27369)

アイキャッチ画像: Photo by Nathaniel Shuman on Unsplash