AI SaaS-Bench: 実務23アプリで最高のCUAも完了率4%未満
arXiv論文SaaS-Benchが、LLMベースのコンピューター操作エージェント(CUA)を実際の業務SaaS 23システムで検証しました。最高性能のエージェントでもタスク完了率は4%未満で、計画・状態認識・クロスアプリ連携・エラー回復の4点が主な失敗要因と特定されています。
AI
AI
AI
AI
AI
AI
AI
AI
AI
AI