AI マウスと視線でLLMを改善 — 暗黙的フィードバックによるアライメント手法
マウス軌跡と視線データを使ってユーザーの好みを暗黙的に推定し、LLMアライメントを改善するIFLLM手法が発表されました。59人から収集した1,336件のデータで報酬モデルの精度が55%から64%へ改善し、DPO適用時の品質改善量がテキストのみの約3倍になっています。
AI
AI
AI
AI
AI
AI
AI
AI
AI
AI