AI と機械学習

Gemini 3.5 Live Translate による滑らかで自然な音声翻訳

2026年6月11日

https://storage.googleapis.com/gweb-cloudblog-publish/images/image2_gYZ1Gzm.max-1600x1600.png

Google Cloud Japan Team

Gemini 3.5 Live Translate を活用して開発

Gemini 3.5 Live Translate は、音声のストリーミングと同時に処理を行い、言語間のよりシームレスなつながりを実現します。このモデルは、手動での設定を必要とせずに、多言語入力を処理します。またこのアプリケーションは、ノイズに対する高い耐性により、周囲がうるさい予測不可能な環境でも対応できます。この機能を活用することで、多言語での通話、会議、授業、配信などのライブ通訳を円滑にできます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/image6_jk0RaEx.max-1000x1000.png

ダビングと同時多言語翻訳を可能にする Gemini Live API の実際の動作をご覧ください。Gemini Cookbook のデモやその他のサンプルコードもぜひご確認ください。

Gemini Live API を活用することで、Agora、Fishjam、LiveKit、Pipecat、Vision Agents などのデベロッパープラットフォームは、開発者が音声翻訳アプリを容易に構築およびデプロイできるようにします。これらのプラットフォームとの統合が、複雑なリアルタイムメディアストリーミングインフラストラクチャを処理するため、開発者はユーザーエクスペリエンスに集中できます。

Grab では、乗車時におけるドライバーと乗客の間のリアルタイムに近い多言語コミュニケーションを実現するために、このモデルを試しています。ユーザーは、 Grab を通じて毎月 1,000 万回以上の音声通話を行っています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/image1_LoLOPBs.max-1000x1000.png

Grab がユーザー間のコミュニケーションを変革するために、どのように Gemini 3.5 Live Translate のテストを行っているかをご覧ください。

初期レビューの紹介

Grab のほか、CJ ENM や LiveKit などの企業が Gemini 3.5 Live Translate の優れた翻訳品質、高精度、低レイテンシを高く評価するフィードバックを寄せています。

「Gemini 3.5 Live Translate のテストにおいて、複数の言語を自動検出し、低遅延で音声を正確に翻訳する点が優れていると感じました。」
- Grab、チーフプロダクトオフィサー、Philipp Kandal 氏

「CJ ENM は、Gemini 3.5 Live Translate において Google DeepMind とともに取り組めることを嬉しく思っています。初期テストでは、グローバルおよび韓国の視聴者に対して、より本物に近い体験を提供する、期待できる品質が示されています。」
- CJ ENM、チーフ AI オフィサー、Bella Baek 氏

「Gemini 3.5 Live Translate は、多言語での音声のやり取りを容易にします。LiveKit Agents 上のデモでは、全員が自身の言語で話し、リアルタイムで相互に理解し合える環境が実現しました。」
- LiveKit、スタッフデベロッパーアドボケイト、Jesse Hall 氏

「Gemini 3.5 Live Translate モデルを利用した期間中、複数の言語でテストを行い、モデルのスピード、正確性、生き生きとした表現力に感銘を受けました。」
- Vision Agents、ディレクター、Nash Ramdial 氏

「Gemini 3.5 Live Translate と Fishjam の MoQ プロトコルとの組み合わせは、リアルタイムマルチメディアストリーミングにおける新たな領域を切り開き、70 以上の言語への音声対訳を可能にします。」
- Software Mansion、VP、Maciej Rys 氏

「Agora で Gemini 3.5 Live Translate モデルをテストした結果、低レイテンシかつ高精度で、リアルタイム翻訳の新たな基準を確立する最先端の成果が得られたと評価しています。」
- Agora、デベロッパーエバンジェリスト、Mason Adams 氏

ビデオ会議で Gemini 3.5 Live Translate を体験

Google Meet の音声翻訳はまもなく、Gemini 3.5 Live Translate を利用し、以下の機能を提供することでエクスペリエンスを向上させます。

対応言語を従来の 5 言語から、70 以上の言語に拡大します。
従来の「英語との相互翻訳のみ」から、1 つの会議で 2,000 以上の言語の組み合わせが可能になります。
音声翻訳に即座にアクセスできるよう、インターフェースを刷新します。

今月より、一部のビジネス向け Google Workspace のお客様を対象に、このアップデートのプライベートプレビューを開始し、年内にはさらなる展開を予定しています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/image3_bgVFgji.max-900x900.png

Android または iOS の Google 翻訳アプリで Gemini 3.5 Live Translate を利用

このモデルは、Android と iOS の Google 翻訳アプリにも世界中で順次展開します。Live translate 機能を使用する際は、ヘッドホンを接続するだけで、70 以上の言語にわたり、話者のトーンを反映したよりシームレスな翻訳を体験できます。

Android ユーザー向けには、Gemini 3.5 Live Translate を使用した新しい「リスニングモード」の展開も開始します。これにより、スマートフォンのイヤピースから翻訳音声を直接聞くことができます。通常の通話と同じようにスマートフォンを耳に当てるだけで、翻訳された音声が直接届きます。ヘッドホンが手元にない場合や、他の人に聞かれずに翻訳音声を素早く確認したい状況で役立つ、新しい体験です。

https://storage.googleapis.com/gweb-cloudblog-publish/images/image5_LuSjyhG.max-900x900.png

新しいリスニングモードを使用することで、ユーザーはスマートフォンのイヤピースから直接、スペイン語によるガイド付きツアーの英語翻訳をほぼリアルタイムで聞くことができます。(動画はこちら）

SynthID による電子透かし

モデルが生成するすべての音声には、SynthID による電子透かしが埋め込まれています。この感知できない電子透かしは音声出力に直接組み込まれており、AI 生成コンテンツの検出可能性を維持し、誤情報の防止に貢献します。安全性と責任に関する Google のアプローチの詳細については、モデルカードをご確認ください。

-Anuda Weerasinghe, Product Manager

-Tony Lu, Senior Staff Software Engineer

投稿先