コンテンツに移動
AI と機械学習

Gemini 3.5 Live Translate による滑らかで自然な音声翻訳

2026年6月11日
https://storage.googleapis.com/gweb-cloudblog-publish/images/image2_gYZ1Gzm.max-1600x1600.png
Google Cloud Japan Team

最新の音声モデルである Gemini 3.5 Live Translate は、70 以上の言語でリアルタイムに近い音声対訳を提供します。

※この投稿は米国時間 2026 年 6 月 9 日に、Keyword に投稿されたものの抄訳です。

20 年前、Google における翻訳は、言語の科学を人々のつながりへと変えるための、先駆的な機械学習の実験の 1 つとして始まりました。この実験は現在では大きく進化し、毎月、Google の製品群全体で数十億ものユーザーのために 1 兆語以上を翻訳しています。

本日、リアルタイムの音声対訳に向けた最新の音声モデルである Gemini 3.5 Live Translate のリリースにより、次のステップを踏み出します。

このモデルは、70 以上の言語を自動検出し、話者のイントネーション、テンポ、ピッチを維持した、スムーズで自然な響きの翻訳音声を生成します。応答する前に話者が話し終えるのを待つターン バイ ターン方式のシステムとは異なり、 Gemini 3.5 Live Translate は音声を継続的に生成し、品質向上のためにコンテキストを待つことと、話者と同調するための素早い翻訳のバランスを取ります。話者からわずか数秒遅れるだけで、不自然な一時停止のない滑らかな音声を実現します。

Gemini 3.5 Live Translate は、本日より Google プロダクト全体で展開を開始します。

  • 開発者向けに、Gemini Live API および Google AI Studio を通じて、パブリック プレビューで提供します。
  • エンタープライズ向けには、今月より Google Meet において、プライベート プレビューを開始します。
  • すべてのユーザーに向けて、Android および iOS の Google 翻訳アプリを通じて提供します。

Gemini 3.5 Live Translate を活用して開発

Gemini 3.5 Live Translate は、音声のストリーミングと同時に処理を行い、言語間のよりシームレスなつながりを実現します。このモデルは、手動での設定を必要とせずに、多言語入力を処理します。またこのアプリケーションは、ノイズに対する高い耐性により、周囲がうるさい予測不可能な環境でも対応できます。この機能を活用することで、多言語での通話、会議、授業、配信などのライブ通訳を円滑にできます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/image6_jk0RaEx.max-1000x1000.png

ダビングと同時多言語翻訳を可能にする Gemini Live API の実際の動作をご覧ください。Gemini Cookbook のデモやその他のサンプル コードもぜひご確認ください。

Gemini Live API を活用することで、AgoraFishjamLiveKitPipecatVision Agents などのデベロッパー プラットフォームは、開発者が音声翻訳アプリを容易に構築およびデプロイできるようにします。これらのプラットフォームとの統合が、複雑なリアルタイム メディア ストリーミング インフラストラクチャを処理するため、開発者は ユーザー エクスペリエンスに集中できます。

Grab では、乗車時におけるドライバーと乗客の間のリアルタイムに近い多言語コミュニケーションを実現するために、このモデルを試しています。ユーザーは、 Grab を通じて毎月 1,000 万回 以上の音声通話を行っています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/image1_LoLOPBs.max-1000x1000.png

Grab がユーザー間のコミュニケーションを変革するために、どのように Gemini 3.5 Live Translate のテストを行っているかをご覧ください。

初期レビューの紹介

Grab のほか、CJ ENM や LiveKit などの企業が Gemini 3.5 Live Translate の優れた翻訳品質、高精度、低レイテンシを高く評価するフィードバックを寄せています。

「Gemini 3.5 Live Translate のテストにおいて、複数の言語を自動検出し、低遅延で音声を正確に翻訳する点が優れていると感じました。」
- Grab、チーフ プロダクト オフィサー、Philipp Kandal 氏

「CJ ENM は、Gemini 3.5 Live Translate において Google DeepMind とともに取り組めることを嬉しく思っています。初期テストでは、グローバルおよび韓国の視聴者に対して、より本物に近い体験を提供する、期待できる品質が示されています。」
- CJ ENM、チーフ AI オフィサー、Bella Baek 氏

「Gemini 3.5 Live Translate は、多言語での音声のやり取りを容易にします。LiveKit Agents 上のデモでは、全員が自身の言語で話し、リアルタイムで相互に理解し合える環境が実現しました。」
- LiveKit、スタッフ デベロッパー アドボケイト、Jesse Hall 氏

「Gemini 3.5 Live Translate モデルを利用した期間中、複数の言語でテストを行い、モデルのスピード、正確性、生き生きとした表現力に感銘を受けました。」
- Vision Agents、ディレクター、Nash Ramdial 氏

「Gemini 3.5 Live Translate と Fishjam の MoQ プロトコルとの組み合わせは、リアルタイム マルチメディア ストリーミングにおける新たな領域を切り開き、70 以上の言語への音声対訳を可能にします。」
- Software Mansion、VP、Maciej Rys 氏

「Agora で Gemini 3.5 Live Translate モデルをテストした結果、低レイテンシかつ高精度で、リアルタイム翻訳の新たな基準を確立する最先端の成果が得られたと評価しています。」
- Agora、デベロッパーエバンジェリスト、Mason Adams 氏

ビデオ会議で Gemini 3.5 Live Translate を体験

Google Meet の音声翻訳はまもなく、Gemini 3.5 Live Translate を利用し、以下の機能を提供することでエクスペリエンスを向上させます。

  • 対応言語を従来の 5 言語から、70 以上の言語に拡大します。
  • 従来の「英語との相互翻訳のみ」から、1 つの会議で 2,000 以上の言語の組み合わせが可能になります。
  • 音声翻訳に即座にアクセスできるよう、インターフェースを刷新します。

今月より、一部のビジネス向け Google Workspace のお客様を対象に、このアップデートのプライベート プレビューを開始し、年内にはさらなる展開を予定しています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/image3_bgVFgji.max-900x900.png

Android または iOS の Google 翻訳アプリで Gemini 3.5 Live Translate を利用

このモデルは、AndroidiOS の Google 翻訳アプリにも世界中で順次展開します。Live translate 機能を使用する際は、ヘッドホンを接続するだけで、70 以上の言語にわたり、話者のトーンを反映したよりシームレスな翻訳を体験できます。

Android ユーザー向けには、Gemini 3.5 Live Translate を使用した新しい「リスニング モード」の展開も開始します。これにより、スマートフォンのイヤピースから翻訳音声を直接聞くことができます。通常の通話と同じようにスマートフォンを耳に当てるだけで、翻訳された音声が直接届きます。ヘッドホンが手元にない場合や、他の人に聞かれずに翻訳音声を素早く確認したい状況で役立つ、新しい体験です。

https://storage.googleapis.com/gweb-cloudblog-publish/images/image5_LuSjyhG.max-900x900.png

新しいリスニング モードを使用することで、ユーザーはスマートフォンのイヤピースから直接、スペイン語によるガイド付きツアーの英語翻訳をほぼリアルタイムで聞くことができます。(動画はこちら

SynthID による電子透かし

モデルが生成するすべての音声には、SynthID による電子透かしが埋め込まれています。この感知できない電子透かしは音声出力に直接組み込まれており、AI 生成コンテンツの検出可能性を維持し、誤情報の防止に貢献します。安全性と責任に関する Google のアプローチの詳細については、モデル カードをご確認ください。

-Anuda Weerasinghe, Product Manager

-Tony Lu, Senior Staff Software Engineer

投稿先