AI arXiv:LongTraceRL、RL報酬設計でLLM長文推論を改善
arXivのLongTraceRL論文が、長文コンテキスト推論が苦手なLLMを強化学習で改善する手法を提案しました。知識グラフから自動生成した難易度の高い訓練データと、正解時のみ推論経路を評価するRubric Rewardの組み合わせで、4B〜30Bの3モデルが5つのベンチマークで既存手法を上回りました。
AI
AI
AI
AI
AI
SQL
AI
AI
AI
AI