いまのリアルタイム翻訳ってどこまで来てるの？

一言でいうと、「アプリで文を投げる時代」から「どこで話してても勝手に訳る時代」にだいぶ近づいたって感じ。GoogleやZoomが、会話や会議の中に翻訳を埋め込んできてるから、「ちょっと待ってコピペするから」ってやる場面が減ってきてるのよ。たとえばGoogleは2025年にTranslateへライブの会話翻訳と学習機能を足してるし、音声ベースのやりとりもほぼリアルタイムでいけるようになってる。

“入ってるだけで翻訳する”が当たり前化
音声も“ほぼリアルタイム”に
マルチモーダル化と“声を残す”方向
それでもまだ完璧じゃないところ
これからどうなりそう？

“入ってるだけで翻訳する”が当たり前化

昔はわざわざ翻訳アプリを開いてたけど、今はプラットフォーム側が最初から翻訳を持ってるパターンが多い。ZoomがAI Companion 3.0で会議中の音声翻訳を自社で回すようにしたのが象徴的で、入って話すだけで字幕＋翻訳が出る。46言語のキャプションとかも普通にあるから、国バラバラでもとりあえず会議が成立する。

同じ流れで、WhatsAppもチャットの中で長押ししてすぐ翻訳できるようにしてきてるから、「メッセージだけは英語で来るんだよな…」みたいな小さい不便も潰されつつある。しかも端末内で処理してプライバシーも見てるから、だいぶ現実的。

音声も“ほぼリアルタイム”に

2025年は音声のほうもだいぶ進んでて、GoogleのPixel 10みたいに通話中にオンデバイスで訳す＋相手に自分の声で届けるみたいなおしゃれ機能が来てる。ラグを減らすために端末のAIモデルで処理してるから、わざわざクラウド行って帰ってくるのを待たなくていいし、なにより「電話先がPixelじゃなくてもいい」という雑な親切設計。

会議向けのサービスでも、KUDOとかZoomとかが「自動字幕＋翻訳＋要約」まで一連でやるようになってるから、もはや“通訳さんを呼ぶまでもない場面”が増えてるのが今。もちろん精度は言語ペアや専門用語に左右されるけど、「話してる内容の方向性を掴む」には十分。

マルチモーダル化と“声を残す”方向

「マルチモーダル化」って聞きなれない言葉だけど、カッコよく言ってるだけで意味はシンプルよ。

文字だけじゃなくて、いろんな情報をまとめてAIが扱えるようにすること。

たとえば…

文字だけ読む → ふつうの翻訳
音声も聞く → 話してるのをそのまま訳せる
画面の画像も見る → 画面に映ってる英語も訳せる
場合によっては動画も → 動いてるものを見ながら理解する

って感じで、「1つのモード（＝モーダル）だけじゃなくて、複数のモードをいっしょに処理する」からマルチ（複数）＋モーダルなの。

最近のトレンドの面白いとこは、*「訳すけど話者の雰囲気は残す」*方向に寄ってること。Googleのアップデートでも、発話を即時に訳しつつ元の声を保持するほうへ寄せてて、「ロボ声で別言語」よりかなり自然。これは大きなモデル（Gemini系とか）を端末やサービスに乗せやすくなったおかげ

あと、耳につける系（Timekettleのイヤホン）がAI通訳を普通に積んで出てきてるから、「旅行とか現場でサッと訳す」ニーズもちゃんと拾ってる。骨伝導で声拾って訳すとか、もはやSFの足音がする。

それでもまだ完璧じゃないところ

いいことばっか言ってもしょうがないから弱点も置いとくね。

文脈が長いとたまに迷子
長い話や専門用語が多い会議だと、途中から訳語が揺れる。会議側が用語集を共有できる仕組みを入れてるところもあるけど、まだ人間通訳ほどは安定しない。
対応言語は広がってるけどムラがある
WhatsAppの新機能も最初は少ない言語から始めて、iPhoneのほうが多い…みたいな段階的リリース。つまり「どこでも誰とでも完全に」はまだちょっと未来。
ネットワークとプランに寄る
Zoomの翻訳も全部無料じゃなくて、エンタープライズ向けにはもっと豪華な翻訳が付く。要は「タダで全部はまだ無理」ってこと。