AI arXiv CORE論文 — 5サンプルでLLM推論を自己改善する手法
arXivのCORE論文が、成功・失敗の推論トレースを対比して自然言語のヒントを生成する手法を提案しました。RLVR(検証可能な報酬による強化学習)が数千ロールアウトを要するのに対し、たった5サンプルで同等の推論改善を達成しています。
AI
AI
AI
AI
AI
AI
AI
AI
AI
AI