AI ORAgentBench論文:LLMエージェントが業務最適化で35%止まりの理由
LLMエージェントが業務最適化問題をどこまで解けるかを測るORAgentBenchが公開されました。107件の実務タスクに対する14エージェント構成の評価で最高スコアは35.51%、難問では20.59%にとどまり、業務ルール見落としや解の品質不足が主な失敗パターンとして明らかになっています。
AI
AI
AI
AI
AI
AI
AI
AI
AI
AI