Gemini 3.5 Live Translate — 70言語対応のリアルタイム音声翻訳が登場

Googleが音声翻訳の新モデル「Gemini 3.5 Live Translate」を発表しました。70以上の言語に対応し、話者が話し終わるのを待たずに継続的に音声を生成するほぼリアルタイムの翻訳を実現しています。Google Meetでは2,000以上の言語の組み合わせで利用可能となり、従来の「英語しか扱えない」「対応言語は5つのみ」という制限を大幅に超えます。Grabはすでに月間1,000万件超の音声通話にこの技術を活用しており、言語障壁を越えたコミュニケーションの実用化が進んでいます。

背景と文脈
技術/ビジネス面
これからどうなるか
まとめ
参考リンク

背景と文脈

音声翻訳の歴史は長く、Googleを含む多くの企業が以前から研究開発を続けてきました。しかしこれまでの商用システムには共通の限界がありました。発話を一区切り聞き取ってからテキストに変換し、翻訳して音声に変換するという段階的な処理のため、数秒から十数秒の遅延が生じるのが一般的でした。会話の流れが途切れ、「翻訳待ち」の状態が明らかに発生するため、自然な対話の妨げになっていました。

もう一つの課題は話者の声の個性でした。既存システムは翻訳後の音声が機械的で、元の話者のイントネーションやリズムが失われることが多くありました。字幕や読み上げとして機能しても、「その人が話している」という自然さは維持できていませんでした。

対応言語数の制限も実用上の壁でした。従来のGoogle Meetの翻訳機能は英語の入力・出力のみに対応し、対応言語は5言語にとどまっていました。世界の言語多様性を考えると、このカバー率では非英語圏での実用的な展開に限界がありました。

技術/ビジネス面

black and gray microphone on white background — Photo by Madrosah Sunnah on Unsplash

Gemini 3.5 Live Translateが従来と異なる最大の特徴は、発話の終わりを待たない継続的音声生成です。話者が話している最中に並行して翻訳音声を生成し、数秒の遅延で同期を保ちます。これにより会話の自然な流れを大きく損なわずに翻訳が進みます。

話者の声の個性についても工夫が施されています。元のイントネーション、ペース、ピッチを保持しながら翻訳音声を生成する設計で、機械的な一様読み上げではなく「その人の話し方の雰囲気」を再現します。雑音環境でも動作するノイズロバスト性も備えており、会議室の喧騒や屋外での通話にも対応できます。

言語は自動検出されるため、事前設定なしに話し始めるだけで翻訳が機能します。SynthID（AI生成コンテンツに埋め込む透かし技術）のウォーターマークが組み込まれており、生成された音声がAI翻訳であることを技術的に識別できる仕組みも持ちます。

利用できる環境はGoogle AI Studio、Google Meet、Google Translateアプリの3つです。ASEANを中心に展開するライドシェア企業Grabは月間1,000万件超の音声通話にこの技術を活用しており、ドライバーと乗客の言語が異なる場面でのコミュニケーション改善に役立てています。

これからどうなるか

70言語・2,000以上の組み合わせへの対応は、非英語圏での実用化の障壁を大幅に下げます。特に東南アジア、南アジア、アフリカなど言語の多様性が高い地域でのビジネス展開や教育現場での活用が期待されます。Grabの事例はその先行例として、スケールする形でAI翻訳が実運用に組み込まれていることを示しています。

開発者の視点では、Google AI StudioでAPIとして利用できることが重要です。リアルタイム音声翻訳を自社製品に組み込む際、インフラをゼロから構築する必要がなくなります。カスタマーサポートの多言語対応、国際会議ツール、語学学習アプリなど、翻訳機能を必要とするサービスへの組み込みコストが下がることが期待されます。

一方で課題も残ります。話者の声の個性を保持するという機能は実装上の複雑さを伴い、すべての言語ペアで均等な品質が保証されるかは今後の検証が必要です。プライバシー面では、音声データをリアルタイムでクラウド処理することへの懸念をどう対処するかも重要な論点です。SynthIDウォーターマークの存在は透明性に貢献しますが、翻訳音声の悪用リスクへの対策は引き続き議論が求められます。

まとめ

Googleが発話中断なしでリアルタイム翻訳を行う「Gemini 3.5 Live Translate」を公開しました。70言語・Google Meetで2,000以上の組み合わせに対応し、話者の声の個性も保持します。Google AI StudioでAPI提供されており、多言語対応サービスへの組み込みコストが下がることが期待されます。

参考リンク

Fluid, natural voice translation with Gemini 3.5 Live Translate (Google Blog)

アイキャッチ画像: Photo by Markus Spiske on Unsplash