Gemini 3.5 Flashがコンピュータ操作機能を統合

GoogleがGemini 3.5 Flashに、コンピュータ操作機能を本体に組み込む形でネイティブ統合しました。Googleの公式発表（6月24日）によると、ブラウザ・モバイル・デスクトップを横断してAIエージェントが「見て・判断して・操作する」長時間タスクをAPIで利用できるようになりました。高速・低コストな「Flash」モデルに直接組み込んだ点が、競合機能との大きな違いです。

背景と文脈
技術/ビジネス面
これからどうなるか
まとめ
参考リンク

背景と文脈

コンピュータ操作機能とは、AIがスクリーンショットを撮りながらボタンをクリックしたり、テキストを入力したりといった一連の操作を自律的に行う機能です。2024年後半にAnthropicがClaude向けに実装して以降、主要なAIプロバイダーが追随する形で実装を進めてきました。

Geminiがこの機能を搭載するにあたってGoogleが採った戦略は、既存の高速モデルへの直接統合です。Gemini 3.5 Flashは比較的低コストで応答速度に優れたモデルとして位置づけられており、コンピュータ操作のような繰り返し・長時間動作が求められるユースケースでは費用対効果の面で有利に働きます。

また、自律エージェントが広まるにつれて注目されているのがプロンプトインジェクションのリスクです。プロンプトインジェクションとは、ウェブページや文書に埋め込まれた悪意ある指示をAIが誤って実行してしまう攻撃手法です。今回の統合ではGoogleがトレーニングレベルからこの問題に対策を講じており、その点が実用面での信頼性に直結します。

技術/ビジネス面

Wikipedia page screenshot — Photo by Luke Chesser on Unsplash

Gemini 3.5 Flashのコンピュータ操作機能は、「targeted adversarial training for computer use（コンピュータ操作に特化した敵対的訓練）」と呼ぶ手法でプロンプトインジェクションへの耐性を高めています。ウェブページ上のテキストや広告に混入した不正な指示を識別し、意図しない動作を防ぐことを目的とした訓練です。

OSWorld（実際のデスクトップ操作タスクを模した評価指標）での性能も改善したとGoogleは述べています。対応するユースケースとして挙げられているのは、長時間にわたるブラウザ操作の自動化、継続的なソフトウェアテスト、エンタープライズ向けの業務フロー代行などです。アクセス経路は、Gemini API（ai.google.dev で提供）と Google Cloud のエンタープライズエージェントプラットフォームの2ルートです。

企業向けには追加のセーフガードも用意されています。センシティブな操作の実行前に明示的なユーザー確認を求める設定と、プロンプトインジェクションを検知した際にタスクを自動中断する仕組みです。Googleはこれらをサンドボックス化や人間によるレビューと組み合わせることを推奨しています。

これからどうなるか

コンピュータ操作機能が高速・低コストモデルに統合されたことで、自動化エージェントの導入コストが下がります。これまで専用の重量級モデルが必要だったワークフロー代行を、API経由でより手軽に組み込める可能性があります。既存のCIパイプラインにブラウザ操作テストを追加したり、社内業務アプリの定型作業をエージェントに委譲したりといった用途が具体的に近づいてきました。

一方で、コンピュータ操作の自動化では誤った操作が本番環境に影響するリスクがあります。エージェントに与える権限の範囲を最小限に絞り、人間が介入できるチェックポイントを設けることが安全な運用の前提となります。Googleが推奨するサンドボックスや確認ステップの設計は、導入時に必ず検討すべき要素です。

競合という観点では、AnthropicのComputer Use機能やOpenAIのCUA（Computer-Use Agent）と直接競合する位置づけです。高速モデルに統合してコスト競争力を持たせる戦略は、エンタープライズ需要の取り込みを狙ったものと見られます。