Google Gemini Omni公開 — 会話しながら動画を自在に生成・編集

Googleが2026年のGoogle I/OでGemini Omniを発表しました。テキスト・画像・動画・音声など任意の入力から動画を生成し、会話形式でシーンを編集できる新しいマルチモーダル（複数種類のデータを統合して扱う）AIモデルです。従来の動画編集ツールが必要とした専門的な操作をすべて自然言語で代替でき、物理演算の一貫性を複数編集ターンにわたって維持できる点が大きな特徴です。

背景と文脈
技術/ビジネス面
これからどうなるか
まとめ
参考リンク

背景と文脈

動画生成AIは2024年以降に急速に進化し、OpenAIのSoraやStability AIのモデルが注目を集めてきました。しかしいずれも「プロンプトから動画を生成する」という一方向の処理であり、生成後に細部を修正するにはプロンプトを書き直すしかありませんでした。

Gemini Omniはこの課題を「会話型編集」で解決しようとしています。ユーザーは生成した動画を見ながら「この人物の服を赤に変えて」「背景を夜景にして」と話しかけるだけで、次のターンでシーン全体の文脈を維持したまま変更が反映されます。動画編集の専門知識を持たないユーザーが複雑な映像制作に参加できるようになる、大きな民主化の動きです。

Googleがこのタイミングで動画生成に本格参入する背景には、AIによるコンテンツ生産の急増とYouTube・Google Flow（クリエイター向けAIツール）との連携があります。YouTubeのショート動画ユーザーには無料で開放されており、プラットフォーム内のエコシステムを強化する狙いが見えます。

技術/ビジネス面

close-up of black camera with tripod in production studio — Photo by ShareGrid on Unsplash

Gemini Omniが他の動画生成モデルと異なる点は大きく3つあります。

1つ目は「マルチ入力参照」です。テキストだけでなく、参照画像・既存動画・音声・PDFなど複数の入力を組み合わせて動画を生成できます。たとえば「この画像のスタイルで、この動画の動きを参考に、このテキスト内容を表現して」という複合指示が可能です。

2つ目は「物理演算の理解」です。重力・運動エネルギー・流体力学といった物理現象を直感的に理解しており、生成映像内のオブジェクトが自然な動きをします。従来の動画生成AIに多く見られた「動きが不自然」という問題を大幅に改善しています。

3つ目は「SynthID透かし」です。Gemini Omniが生成したすべての動画には、人の目には見えないSynthID透かしが埋め込まれます。SynthIDはGoogleが開発したAI生成コンテンツの真正性確認技術で、生成動画と実撮影動画を区別する手段として機能します。

現在、Gemini Omni FlashはGemini AppのPlus・Pro・Ultraプランの加入者向けに公開されており、Google FlowやYouTube Shortsでも利用できます。開発者・企業向けのAPIアクセスは数週間以内に展開予定です。

これからどうなるか

Gemini Omniの登場は、動画コンテンツ制作のコストと参入障壁を大きく下げます。これまでは映像制作会社や専門スキルを持つクリエイターにしか手が届かなかった品質の動画が、文章を書けるだけで生成できるようになります。

開発者にとって注目すべきは、近日公開予定のAPIアクセスです。動画生成をバックエンドに組み込むことで、プレゼンテーション自動作成・eラーニングコンテンツ生成・広告素材の自動制作といったユースケースが現実的なコストで構築できるようになります。SynthID透かしの存在はフェイク動画対策にも使えるため、信頼性を担保した動画パイプラインの設計も可能です。

一方で、フェイク動画・ディープフェイクの生成コストも下がるため、コンテンツモデレーションや著作権管理の課題が深刻化するという懸念もあります。SynthIDが広く普及し、プラットフォームが生成動画の検出・開示を標準化するまでの間、社会的な混乱が起きるリスクは残ります。