VISUALSKILL：視覚スキルでPC操作エージェント精度+15pt

コンピューターを自律操作するエージェント（computer-use agent）の性能を引き上げるスキルライブラリ「VISUALSKILL」がarXiv（論文番号：2606.18448）で公開されました。MITやUCSBなどの研究者が設計したこのシステムは、テキストのみのスキル情報に視覚情報（スクリーンショット・UI図など）を組み合わせることで、エージェントがGUIを操作する精度を大幅に向上させます。Claude Opus 4.6エージェントとの組み合わせでは、CUA-WorldとOSExpert-Evalの2つのベンチマークでベースラインから+15.3ポイントの精度向上を達成しました。コードはCreative Commons Attribution 4.0ライセンスでGitHubに公開されており、自社のエージェント設計に組み込める実装として注目されています。

背景と文脈
技術/ビジネス面
これからどうなるか
まとめ
参考リンク

背景と文脈

コンピューター操作エージェントは、RPA（Robotic Process Automation、定型的なPC操作を自動化するツール）の次世代として注目されています。従来のRPAが特定の操作手順を記録・再生するのに対し、LLM（Large Language Model、大規模言語モデル）ベースのPC操作エージェントは自然言語の指示を理解して柔軟に対応できる点が強みです。しかし実際にアプリケーションを使ったことのないエージェントがゼロから操作方法を習得するのは難しく、未知のソフトウェアや長時間タスクでは精度が大きく落ちるという問題が続いていました。

この課題に対して、「エージェントにあらかじめスキル（操作知識）を与える」アプローチが注目されています。人間が新しいツールを使う際にドキュメントを読んで操作を覚えるのと同様に、体系的な知識ベースを事前に持たせることで、未知アプリへの対応能力を底上げします。従来のスキルライブラリはテキスト情報のみで構成されていましたが、GUIの操作ではビジュアル——どこをクリックするか、どのUI要素が何を意味するか——が重要な情報を持つことが多く、テキスト化するとその情報が失われるという問題がありました。VISUALSKILLはこの「視覚情報の欠落」を直接解決しようとする試みです。

技術/ビジネス面

white and gray robot toy — Photo by Mathew Schwartz on Unsplash

VISUALSKILLは2段階のパイプラインでスキルライブラリを構築します。まず公式ドキュメントからテキスト・図表・スクリーンショットを収集し、次にエージェントが実際にアプリケーションのインターフェースを探索しながら操作知識を補完します。スキルは階層的に整理され、load_topicというMCPツール（Model Context Protocol、AIモデルが外部データソースや機能にアクセスするための標準プロトコル）を通じて必要なときに必要な部分だけをオンデマンドでロードする設計です。これにより、膨大なスキル情報をコンテキストウィンドウ（LLMが一度に処理できるテキスト量の上限）に詰め込む必要がなくなり、実用的な規模のアプリケーションにも対応できます。

視覚情報の有無による効果は明確でした。同じドキュメントソースから作ったテキストのみのスキルライブラリと比較した場合、視覚情報を含むVISUALSKILLは+8.3ポイント（スコア0.373→0.456）の精度向上を実現しました。論文では「UI要素の特定と操作後の状態確認に、図を保持することが直接的に効果をもたらす」と述べており、スクリーンショットをテキストに変換して使うのではなく視覚情報のまま活用することの優位性が実証されています。Claude Opus 4.6エージェントとの組み合わせでの総合スコアは0.456で、ベースラインから+15.3ポイントの向上です。

実装面では、MCP互換のツールとして既存エージェントフレームワークに追加できる設計になっています。CUA-World（コンピューター操作エージェントの汎用評価環境）とOSExpert-Eval（OS操作の専門性を問うベンチマーク）の両方で検証されており、特定のアプリケーションに依存しない汎用性も示されています。

これからどうなるか

VISUALSKILLはMCPツールとして実装されており、既存のエージェントワークフローに組み込みやすい設計になっています。自社サービスにPC操作エージェントを追加したい開発者は、GitHubのコードを参考に自社アプリケーション向けのスキルライブラリを構築する出発点として活用できます。公式ドキュメントと実機探索の2段階でスキルを収集するパイプラインは、新しいソフトウェアへの対応を比較的低コストで拡張できる設計です。特に社内ツールや業界固有のソフトウェアを使う業務自動化の文脈で、実践的な価値があります。

コンピューター操作エージェントの市場は、企業のデスクワーク自動化需要の高まりとともに拡大が続いています。視覚情報の活用が標準的な設計手法として定着すれば、エージェントが実用的に扱えるアプリケーションの範囲が大きく広がるでしょう。今後の技術課題としては、ソフトウェアのバージョンアップに追従するスキルの自動更新や、複数アプリを横断する複合タスクへの対応が残っています。

まとめ

VISUALSKILLはPC操作エージェントに視覚情報を含む階層的スキルライブラリを与えることで、ベースラインから+15.3ポイントの精度向上を実現しました。MCPツールとして実装されGitHubで公開されており、自社エージェントへの組み込みを検討している開発者にとって実践的な参考実装となっています。

参考リンク

VISUALSKILL: Multimodal Skills for Computer-Use Agents (arXiv:2606.18448)

アイキャッチ画像: Photo by Fernando Hernandez on Unsplash