SaaS-Bench: 実務23アプリで最高のCUAも完了率4%未満

arXivに公開された「SaaS-Bench」（2605.15777）は、LLMベースのCUA（Computer-Using Agent、コンピューターを自律的に操作するAIエージェント）が実際の業務用SaaSソフトウェアをどれだけ使いこなせるかを評価した新ベンチマークです。6つの業務領域にまたがる23のSaaSシステムで106のタスクを実施した結果、最も高性能なエージェントでさえエンドツーエンドのタスク完了率は4%未満でした。実務の複雑さに対するエージェントの実力と、開発者が埋めるべきギャップを具体的に示しています。

背景と文脈
技術/ビジネス面
これからどうなるか
まとめ
参考リンク

背景と文脈

CUAは、マウス・キーボード・スクリーンショットを使ってPCを自律的に操作するAIエージェントです。AnthropicのComputer Use機能やOpenAIのオペレーターエージェントなど、大手AI企業が相次いでこの分野の機能を投入し、「人間の代わりにPCを操作するAI」への期待が高まっています。

ただし、こうした期待に対して実態の検証は追いついていませんでした。多くのベンチマークは「単一アプリ内の短いタスク」や「スクリーンショットの正解選択」といった単純化されたシナリオに限られており、実際の業務環境——複数アプリをまたいで手順が長く予期しないエラーが起きる——への対応力を測れていませんでした。

SaaS-Benchはこのギャップを埋めるために設計されています。対象の23のSaaSシステムは、CRM・会計ソフト・プロジェクト管理ツールなど実際の職場で日常的に使われる本物のアプリケーションです。タスクは作業の一部だけでなく「最初から最後まで」の完了を要求し、途中の状態を確認する重み付き検証ポイントを設けることで部分的な達成度も計測できます。

技術/ビジネス面

評価は6つの業務ドメイン（マーケティング・財務・人事・プロジェクト管理・営業・カスタマーサポートなど）にまたがる106のタスクで実施されました。タスクには「CRMで特定の商談ステータスを更新し、その変更をSlackの担当チャンネルに通知する」といった、複数アプリを連携させる長手順の操作が含まれます。

最も性能の高いLLMベースのエージェントでもエンドツーエンドの完了率が4%未満という結果は、現状の実力を如実に示しています。論文は失敗の主な要因を4つに分類しています。第一は「計画の失敗」で、手順が長いタスクで全体の流れを見通した行動計画を立てられない点です。第二は「システム状態の認識ミス」で、操作途中のSaaS上のデータ状態を正確に把握できない問題です。第三は「クロスアプリのコンテキスト喪失」で、複数アプリをまたぐ際に前の操作で得た情報を引き継げない課題です。第四は「エラーからの回復不全」で、操作が失敗したとき代替手順を考えて再試行できないことです。

重み付き検証ポイントで見ると、多くのエージェントはログインや初期操作など前半は比較的こなせるものの、複合的な判断が必要な後半で失速するパターンが多いです。既に「AIエージェントで業務を自動化できる」と謳うツールが多数出回っている中で、この結果は導入を検討する企業が実際の効果を独立して検証する必要性を示しています。

これからどうなるか

4%という完了率は批判ではなく、現状の座標確認として受け取るべき数字です。論文が特定した4つの失敗カテゴリは、エージェント開発者が「次に何を優先すべきか」を考える具体的な指針になります。特に「クロスアプリのコンテキスト喪失」と「エラー回復不全」は、LangGraphやAutoGen（複数エージェントの協調動作を管理するライブラリ）がまだ標準的には解決していない課題です。ワーキングメモリ（会話の文脈を一時的に保持する仕組み）の設計改善や、エラー時に代替手順へ切り替えるリトライロジックの実装が、実務CUAの性能を上げる鍵になります。

SaaS-Benchで公開されているタスクセットは、自社のエージェントが実際にどこで詰まるかを事前に把握するテストスイートとしても活用できます。既存のRAGパイプライン（Retrieval-Augmented Generation、検索拡張生成：外部知識を検索してモデルの回答精度を高める手法）やエージェントハーネスを本番業務に適用しようとしている開発者は、このベンチマークで自分のスタック上の弱点を洗い出すことが近道になるでしょう。

CUAの能力向上とともに、どのSaaSがエージェント操作に対応した設計（構造化されたAPI・明確なステートフィードバックなど）になっているかが、ツール選定の軸の一つになりつつあります。