第1回:音声翻訳の本当の課題は精度ではなかった
音声翻訳アプリを使って、海外の方と会話をしたことはありますでしょうか。
Microsoft Translator、Google翻訳、Appleの AirPodsライブ通訳——大手テック企業が提供するリアルタイム音声翻訳は、年々精度が向上しています。対応言語も増え、技術としては非常に成熟してきました。
しかし、実際に使ってみると、ある違和感に気づきます。
翻訳は正確なのに、会話がうまくいかない。
問題は「沈黙」にありました
英語でのビジネス会話で翻訳アプリを使うと、こうした状況が生まれます。
相手が英語で話す → 翻訳を待つ(3〜5秒の沈黙)→ 翻訳を読む → 自分が話す → また相手が待つ
この「翻訳を待つ沈黙」の間、相手は「聞こえていないのかな」と不安になり、こちらは翻訳が出るまで反応することができません。翻訳の品質がどれほど向上しても、この会話のテンポが崩れる問題は構造的に解消されません。
既存の音声翻訳は、いずれも「逐次翻訳」というアーキテクチャを採用しています。相手が話し終わるのを待ち、テキストを確定させてから翻訳する。正確ではありますが、そのぶん必ず「待ちの時間」が発生します。
同時通訳者の方は、なぜ「待たない」のか
プロの同時通訳者の仕事を観察すると、興味深いことに気づきます。
通訳者の方は、文が完結する前に訳し始めています。
「We should probably reschedule the meeting to…」と聞いた時点で、「会議の日程変更について話しています」と伝え始めている。“Tuesday afternoon” という具体的な情報が聞こえる前から、まず意図を先に伝えているのです。
聞き手にとって最も重要なのは、最初の数秒で「何についての話なのか」がわかることです。詳細な内容は、その後に補足されれば十分対応できます。
この「意図を先に伝える」というアプローチを、ソフトウェアで再現できないか。そう考えて開発を始めたのが、今回ご紹介するプロトタイプです。
Intent-First Translation という考え方
「Intent-First Translation」は、従来の翻訳とは処理の順序が異なります。
従来の翻訳(逐次翻訳):
話し始める → 話し終わる → テキスト確定 → 翻訳 → 表示
(この間、聞き手には何も伝わらない)
Intent-First Translation:
話し始める → 0.5秒後「日程調整の提案」と表示
→ 0.8秒後「火曜の午後に会議を移動させたい」と表示
→ 話し終わる → 確定翻訳に更新
話し始めてから約500ミリ秒で、「この方は今、日程調整の話をしている」という意図が画面に表示されます。翻訳の全文はその数百ミリ秒後に続きます。
聞き手は、相手がまだ話している最中に「何について話しているか」を把握できます。これは逐次翻訳の構造では実現できない体験です。
個人開発のプロトタイプとして
このシステムは、個人開発のプロトタイプとして構築しました。使用したのは、いずれも公開されているAPIとオープンソース技術です。
- 音声認識: Deepgramのストリーミング API(話している途中のテキストをリアルタイムで取得)
- 意図推定・翻訳: Gemini Flash、Groq / Llama 4 Maverick 等のLLM(ストリーミングで構造化出力)
- リアルタイム通信: WebSocket(バックエンドからフロントエンドへ即時配信)
- フロントエンド: React + TypeScript
- バックエンド: Python / FastAPI
実測データ
実際に計測した性能は以下の通りです。
| 指標 | Intent-First Translation | 従来の逐次翻訳(参考) |
|---|---|---|
| 意図の表示 | 約500ms | (該当機能なし) |
| 翻訳の表示開始 | 約500〜800ms | 約2〜5秒 |
| 会話のテンポ | ほぼリアルタイム | 毎回3〜5秒の中断 |
話し始めてから約500ミリ秒で意図が伝わるという体験は、従来の翻訳アプリでは得られないものでした。
デモ動画
実際にIntent-First Translationが動作している様子をご覧ください。話している最中に意図と翻訳が表示される様子がわかります:
「正確に訳す」から「自然に会話する」へ
このプロトタイプが目指しているのは、翻訳の精度で既存サービスと競うことではありません。会話のテンポを維持しながら翻訳を届けるという、異なるアプローチの検証です。
まだ開発途上のプロトタイプではありますが、「意図を先に見せる」というシンプルな発想の転換が、音声翻訳の体験を大きく変える可能性を感じています。
次回は、この500ミリ秒を実現するための技術的なアーキテクチャについてお伝えします。