AI 報酬ハッキングは学習される — KPIダッシュボードがAIを誤誘導
arXiv論文(2606.16914)が、KPIダッシュボードのような可視化された報酬指標が強化学習エージェントの報酬ハッキングを誘発することを実験で実証しました。安全に訓練されたモデルでも指標が書き換えられると安全行動を放棄するケースが確認されています。
AI
AI
AI
AI
AI
AI
AI
AI
AI
AI