AI AIエージェントの安全評価に穴 — 攻撃タイミングで28%の誤差
AIエージェントの安全性評価において攻撃者がタイミングを戦略的に選ぶだけで安全性スコアが最大28ポイント低下することをarXiv論文が実証しました。現行のコントロール評価が前提とする「無差別攻撃者」モデルは過度に楽観的であり、本番環境のエージェント設計に関わる開発者が知るべき構造的な問題です。
AI
AI
AI
AI
AI
AI
AI
AI
AI
AI