Google、Gemini 3.5で70言語のリアルタイム音声翻訳

Googleは2026年6月、リアルタイム音声翻訳モデル「Gemini 3.5 Live Translate」を発表しました。70言語以上を自動検出し、話者のイントネーション・ペース・ピッチを保ったまま翻訳音声をほぼリアルタイムで生成します。Google Meetでは2,000以上の言語ペアが1つの会議内で利用可能になり、開発者向けにはGemini Live APIとGoogle AI Studioを通じたパブリックプレビューが同時に開放されています。音声翻訳を自社サービスへ組み込む選択肢が、いよいよ実装者の手の届く範囲に入ってきました。

背景と文脈
技術/ビジネス面
これからどうなるか
まとめ
参考リンク

背景と文脈

リアルタイム音声翻訳は長年「理論的には可能だが実用水準には遠い」とされてきた分野です。従来のシステムは、発話が一区切りついてから翻訳処理を実行するターン・バイ・ターン方式が主流でした。このため会話のテンポが乱れ、通訳が入ったような不自然な間が生じていました。また翻訳結果を読み上げる合成音声は機械的で平坦になりがちで、「誰が話しているか」の温度感が失われるという問題もありました。

Googleはこれまでも音声翻訳に積極的に取り組んできました。Pixelスマートフォンのリアルタイム字幕、Google翻訳の会話モード、Google Meetの自動字幕など関連機能を段階的に展開してきましたが、いずれも遅延やイントネーションの不自然さを完全には解消できていませんでした。OpenAIのGPT-4oが音声モードを実装したことで音声AI全般への期待値が引き上げられ、「話す・翻訳される・相手の声質で再生される」という体験を単一モデルで実現することが現実的な目標になってきた背景があります。

多言語コミュニケーションのニーズは年々拡大しています。グローバル企業では複数言語話者が同じ会議に参加する場面が増え、医療・教育・行政サービスでも多言語対応の需要が高まっています。従来は通訳者の手配や多言語スタッフの配置が必要でしたが、精度の高い音声翻訳モデルがAPIとして利用可能になれば、こうした課題を技術で解消できる可能性が出てきます。今回のGemini 3.5 Live Translateはその実現に向けた大きな一歩です。

技術/ビジネス面

Two women having a multilingual conversation — Photo by Christina @ wocintechchat.com M on Unsplash

Gemini 3.5 Live Translateの最大の特徴は、発話と翻訳をほぼ同時進行で処理する点です。従来のターン・バイ・ターン方式と違い、話者の発話から数秒遅れで翻訳音声を流し続けます。相手が話し終わるのを待たなくても会話が進み、騒音環境でも動作するノイズロバスト性も備えています。会議室・屋外・放送現場など多様なシーンを想定した設計です。

声質の再現も重要な差別化要素です。翻訳後の音声はイントネーション・ペース・ピッチが原音に近い形で再現されます。単なる機械音声ではなく「その人が翻訳言語で話しているような」自然さを目指しており、70言語以上の自動検出により参加者が事前に言語を宣言しなくても対応します。

セキュリティ面では、生成する翻訳音声すべてにSynthIDウォーターマークを自動付与します。SynthIDはGoogleが開発したAI生成コンテンツ識別技術で、人間には知覚できないマークを音声波形に埋め込むものです。翻訳音声がAI生成であることを事後に確認でき、フェイク音声によるなりすましや情報操作のリスクを低減する設計になっています。

展開方針は三段階です。開発者向けはGemini Live APIとGoogle AI Studioのパブリックプレビュー、企業向けはGoogle Meetのプライベートプレビュー、一般向けはGoogle翻訳アプリへの順次提供です。Androidには会話全体を継続的に聞き取る「リスニングモード」も追加されます。Google Meetでは2,000以上の言語ペアに対応し、従来の英語中心の制限が大幅に緩和されます。Microsoftのチームズ通訳機能やZoomのリアルタイム翻訳と競合しますが、外部開発者向けAPIを開放することで広いエコシステムへの展開を図っています。

これからどうなるか

プレビュー段階のため本番運用に耐える精度かどうかは今後の実測次第です。ただGoogleが開発者向けAPIを早期に開放した狙いは明確で、コミュニティからフィードバックを集めて品質を高め、一般提供までの準備期間を短縮することにあります。APIコストが公開された段階で、本格的な採用判断が進むでしょう。

開発者にとって実務的な影響として、音声翻訳機能の実装コストが大幅に下がる可能性があります。これまでは音声認識・翻訳・音声合成の3種のAPIを組み合わせる必要があり、遅延とコストが積み重なっていました。Gemini Live APIが一括で処理できるなら、多言語コールセンター・医療問診システム・教育プラットフォームのコスト試算を今から見直す価値があります。

規制面では、SynthIDウォーターマークの自動付与がEU AI法の求める「AI生成コンテンツの識別可能性」への対応として機能します。規制準拠を意識したサービス設計を進める企業には、Gemini Live APIの採用が規制対応の一助になり得ます。音声翻訳技術の競争はこれからも続きますが、Gemini 3.5 Live Translateの登場でリアルタイム音声翻訳はいよいよ実用フェーズに入ったといえます。

まとめ

GoogleのGemini 3.5 Live Translateは、70言語以上の自動検出とSynthIDウォーターマーク付与を備えたリアルタイム音声翻訳モデルです。Google MeetおよびGoogleの翻訳アプリへの展開に加え、Gemini Live APIのパブリックプレビューが始まりました。自社サービスへの音声翻訳組み込みを検討している開発者にとって、実装コストの試算を始める好機といえます。

参考リンク

Fluid, natural voice translation with Gemini 3.5 Live Translate（Google公式ブログ）

アイキャッチ画像: Photo by Markus Spiske on Unsplash