谷歌发布Gemini 3.5实时翻译，语音转译告别“回合制”

EntAI 雷达摘要

适合人群：出海企业从业者、跨国远程协作团队、产品与技术开发者
影响领域：企业协作与通信、出行与服务平台、实时音视频技术
机会判断：机会判断：流式语音翻译的低延迟和语气保真度，有望打破远程会议和跨国服务的语言瓶颈，催生更自然的全球化协作生态。
风险提醒：风险提醒：模型复刻说话者语气和音高的能力，虽提升了翻译自然度，但也可能降低伪造语音的门槛，对身份验证带来新挑战。
推荐标签：Google、Gemini、实时翻译、语音AI
推送优先级：3/5

谷歌的一篇博客文章显示，时隔二十年，这家科技巨头的翻译技术迎来了一次从“文本到文本”向“语音到语音”实时流转化的关键升级。北京时间2026年6月9日，谷歌正式发布了其最新的音频模型——Gemini 3.5 Live Translate，并宣布即日起在全球范围内逐步推出。与早期作为机器学习实验起步的谷歌翻译相比，此次发布的Gemini 3.5 Live Translate定位为近乎实时的语音转语音翻译模型。该模型的核心突破在于其处理逻辑的根本转变。传统的翻译系统多采用“回合制”，需要等待说话者结束一段完整表达后再进行转译和输出；而Gemini 3.5 Live Translate实现了持续生成，它像同声传译员一样紧跟说话者的节奏，仅仅滞后几秒钟，从而让对话得以无缝进行。在翻译质量上，该模型不仅覆盖了超过70种语言且无需手动设置即可自动检测，更引人注目的是，它不再输出语气生硬的机器语音。相反，它能够捕捉并再现说话者原始的语调、语速和音高，使得跨语言交流不再是干瘪的文本转换，而是一场伴有情感和自然节奏的对话。同时，针对嘈杂的户外或公共场所，模型的噪音鲁棒性设计也增强了其在复杂环境下的可用性。这一技术升级的触角正在快速延伸至各类现实场景。对于普通用户而言，安卓和iOS平台上的谷歌翻译应用已经开始获得模型支持，用户佩戴耳机即可听到保留说话人语气语调的翻译。安卓用户还将迎来全新的“聆听模式”，只需将手机举到耳边，译文便会通过听筒私密播放。在企业端，谷歌会议（Google Meet）的语音翻译功能将在本月以私人预览版的形式率先向部分Google Workspace商业客户提供，并计划于今年晚些时候推出更广泛的版本。开发者生态也在迅速围绕这一新能力构建。Agora、Fishjam、LiveKit、Pipecat及Vision Agents等平台已开始整合Gemini Live API，为开发者构建和部署语音翻译应用提供便利。这一功能直指远程协作、客户服务和内容播出等高频需求，例如在跨国会议、网课教学或广播中实现实时翻译。东南亚出行与服务平台Grab正利用该模型进行测试。数据显示，Grab用户每月通过其平台进行的语音通话量超过1000万次，该公司显然看到了消除司机与乘客间语言障碍的巨大价值。其他早期体验者如娱乐巨头CJ ENM和实时音视频平台LiveKit，也反馈了该模型在翻译准确度和超低延迟方面的出色表现。

EntAI观察

当我们审视跨越万亿级单词的月度翻译规模时，不难发现，语言早已不是谷歌生态中的数据洪流，而是连接数十亿用户的深层纽带。此次从“处理文本”转向“演绎语音”，可能意味着谷歌正试图通过捕捉语调、停顿和情绪，将翻译技术从简单的信息传递工具，升级为更具渗透力的人际连接媒介。这种转变不仅体现在消费级应用的沉默体验上，更深层的价值或许在于对企业级实时通信的重新定义：将实时的多语言会议与呼叫中心变得低门槛化。值得关注的是，这种对语音本色的保留也可能引发关于深度伪造语音的新一轮审视，当机器能完美复刻说话者的声音特征时，内容真实性的边界将面临更复杂的界定。

Post Views: 19

觉得有用？点个赞

作者entai_admin

EntAI 雷达摘要

EntAI观察

作者 entai_admin

相关文章

扎克伯格宣布全员AI骇客松，Meta内部却遭遇冷水

新一代Siri AI功能将仅限较新苹果设备，硬件门槛或成升级驱动力

Mistral首曝自研芯片计划，OpenAI收购Ona，亚马逊开放货运引发物流股震荡

发表回复取消回复

You missed

从“氛围编程”到“智能体工程”：一年间，AI编程范式已发生根本性转变

Anthropic新模型Fable 5价格翻倍引争议，高昂token成本或阻碍开发者采用

朗·霍华德谈AI电影新美学：如果吉姆·汉森在世也会拥抱它

扎克伯格宣布全员AI骇客松，Meta内部却遭遇冷水

作者entai_admin

EntAI 雷达摘要

EntAI观察

作者 entai_admin

相关文章

发表回复 取消回复

You missed

发表回复取消回复