開発者ツール

AI

SaaS-Bench: 実務23アプリで最高のCUAも完了率4%未満

arXiv論文SaaS-Benchが、LLMベースのコンピューター操作エージェント(CUA)を実際の業務SaaS 23システムで検証しました。最高性能のエージェントでもタスク完了率は4%未満で、計画・状態認識・クロスアプリ連携・エラー回復の4点が主な失敗要因と特定されています。
AI

Anthropic dreaming—Claudeが自己改善する仕組み

Anthropicが2026年5月のCode with Claudeで「dreaming」を発表しました。Claude Managed AgentsがセッションとセッションのあいだにAIが過去記録を見直して改善するもので、法律AIのHarveyではタスク完了率が約6倍、医療文書のWisedocsでは審査時間が50%短縮されています。