AI AIベンチマークの25%に設計欠陥 — 修正後SWE-bench性能が9.9%改善
AIエージェントや大規模言語モデルの評価指標として使われるベンチマークの25.7%超に設計欠陥があることが、自動監査フレームワーク「ABA」によって判明しました。問題タスクを除外するとSWE-bench Verifiedの平均性能が9.9%向上し、公開スコアの信頼性に疑問が投げかけられています。
AI
AI
SQL
AI
AI
AI
AI
AI
AI
AI