Video2GUI(ICML 2026)、動画から1,200万GUI操作軌跡を自動構築

abstract sphere with dots and lines representing machine learning AI

ICML 2026に採択されたVideo2GUIは、インターネット上のチュートリアル動画から1,200万件のGUIエージェント操作軌跡を自動構築するフレームワークです。5億件の動画メタデータから高品質な素材を絞り込み、1,500以上のアプリケーションをカバーするデータセット「WildGUI」を作成しました。Qwen2.5-VLなどのモデルを事前学習させた結果、複数のGUIベンチマークで5〜20%の改善が確認されています。手動アノテーションに依存してきたGUIエージェント研究のデータ収集コストを大幅に圧縮する手法として、今後の研究インフラに大きな影響を与えそうです。

背景と文脈

GUIエージェントとは、Webブラウザやデスクトップアプリのユーザーインターフェースを自律的に操作するAIシステムです。「メールを送る」「ファイルを整理する」といったPCの日常作業を人間に代わって実行できるため、AI自動化の実用的な応用として注目が高まっています。

この分野で長年の課題となっているのが学習データの不足です。GUIエージェントの訓練には「どの画面でどこをクリックするか」という操作の軌跡データが必要ですが、従来はスクリーン録画に人間が手作業でクリック・入力情報を付与するアノテーション作業が不可欠でした。この手法はコストが高く、対象アプリケーションの多様性も限られます。例えば有名なAITWデータセットはAndroidのタスクに特化した数万件のサンプルに留まっており、実世界のアプリケーションをカバーするには程遠い規模です。

Video2GUIはこの課題を「人間がすでに作成したチュートリアル動画」から解くアプローチを取ります。動画共有サービスには「ExcelでピボットテーブルをつくるHowTo」「Figmaでコンポーネントを作成する手順」といったGUIチュートリアルが大量に存在しており、そこには操作の軌跡情報が自然に含まれています。研究チームはこの点に着目し、大規模なデータ収集の自動化を実現しました。

技術/ビジネス面

laptop screen coding light
Photo by Martin Sanchez on Unsplash

Video2GUIの技術的核心は「coarse-to-fine(粗から精への)フィルタリング」です。まず5億件の動画メタデータからGUIチュートリアルである可能性の高い動画を大まかに絞り込み、次にフレーム分析でクリック・入力操作が映っているシーンを精密に抽出します。このパイプラインにより、ノイズの多い生の動画から構造化された操作軌跡を自動生成できます。

構築されたWildGUIデータセットは1,200万件の操作軌跡を含み、1,500以上のアプリケーションとウェブサイトをカバーしています。規模と多様性の両面で従来データセットを大きく上回ります。評価実験ではQwen2.5-VLとMimo-VLの両モデルをWildGUIで事前学習させた結果、複数のGUIグラウンディングおよびアクションベンチマークで5〜20%の改善が達成されています。データセット導入なしのベースラインとの差が複数のベンチマークで一貫しており、手法の有効性が示されています。

ビジネス的な意味合いも大きいです。手動アノテーションによるデータ収集は1件あたり数十秒〜数分の人件費がかかり、大規模化には現実的な限界があります。Video2GUIが示した「ウェブ動画からの自動構築」が確立されれば、GUIエージェントの学習コストを桁違いに下げることができます。WildGUIはオープンな研究成果として公開されており、後続研究が利用しやすい形になっています。

これからどうなるか

GUIエージェントはMicrosoftのCopilot・AnthropicのComputerUse・GoogleのProject Marinerなど大手が競って開発を進めている分野です。Video2GUIのようなデータ構築の自動化技術は、この競争を「データを手動で集めた者有利」から「データ構築手法を持つ者有利」へと変える可能性があります。

ICML 2026への採択により、この手法の再現・拡張研究が増えるでしょう。特に日本語・中国語などの非英語チュートリアル動画からのデータ構築は、英語圏外のGUIエージェント開発にとって有効な方向性になります。

一方で課題もあります。動画からの自動アノテーションには精度に限界があり、誤ったクリック位置やタイミングのラベルが混入する可能性があります。またアプリのバージョン更新でUIが変わると古いデータの品質が低下するという鮮度問題もあります。データセットの定期更新と品質管理の仕組みが、実用化に向けた重要な課題です。

まとめ

Video2GUI(ICML 2026採択)はインターネット動画から1,200万件のGUI操作軌跡を自動構築するフレームワークです。WildGUIデータセットは1,500以上のアプリをカバーし、複数モデルで5〜20%の性能改善を達成しました。手動アノテーションに頼らないデータ収集手法として、GUIエージェント研究の拡大を後押しします。

参考リンク

アイキャッチ画像: Photo by Growtika on Unsplash

タイトルとURLをコピーしました