EntAI 雷达摘要

  • 适合人群:出海企业从业者、跨国远程协作团队、产品与技术开发者
  • 影响领域:企业协作与通信、出行与服务平台、实时音视频技术
  • 机会判断:机会判断:流式语音翻译的低延迟和语气保真度,有望打破远程会议和跨国服务的语言瓶颈,催生更自然的全球化协作生态。
  • 风险提醒:风险提醒:模型复刻说话者语气和音高的能力,虽提升了翻译自然度,但也可能降低伪造语音的门槛,对身份验证带来新挑战。
  • 推荐标签:Google、Gemini、实时翻译、语音AI
  • 推送优先级:3/5

谷歌的一篇博客文章显示,时隔二十年,这家科技巨头的翻译技术迎来了一次从“文本到文本”向“语音到语音”实时流转化的关键升级。北京时间2026年6月9日,谷歌正式发布了其最新的音频模型——Gemini 3.5 Live Translate,并宣布即日起在全球范围内逐步推出。 与早期作为机器学习实验起步的谷歌翻译相比,此次发布的Gemini 3.5 Live Translate定位为近乎实时的语音转语音翻译模型。该模型的核心突破在于其处理逻辑的根本转变。传统的翻译系统多采用“回合制”,需要等待说话者结束一段完整表达后再进行转译和输出;而Gemini 3.5 Live Translate实现了持续生成,它像同声传译员一样紧跟说话者的节奏,仅仅滞后几秒钟,从而让对话得以无缝进行。 在翻译质量上,该模型不仅覆盖了超过70种语言且无需手动设置即可自动检测,更引人注目的是,它不再输出语气生硬的机器语音。相反,它能够捕捉并再现说话者原始的语调、语速和音高,使得跨语言交流不再是干瘪的文本转换,而是一场伴有情感和自然节奏的对话。同时,针对嘈杂的户外或公共场所,模型的噪音鲁棒性设计也增强了其在复杂环境下的可用性。 这一技术升级的触角正在快速延伸至各类现实场景。对于普通用户而言,安卓和iOS平台上的谷歌翻译应用已经开始获得模型支持,用户佩戴耳机即可听到保留说话人语气语调的翻译。安卓用户还将迎来全新的“聆听模式”,只需将手机举到耳边,译文便会通过听筒私密播放。在企业端,谷歌会议(Google Meet)的语音翻译功能将在本月以私人预览版的形式率先向部分Google Workspace商业客户提供,并计划于今年晚些时候推出更广泛的版本。 开发者生态也在迅速围绕这一新能力构建。Agora、Fishjam、LiveKit、Pipecat及Vision Agents等平台已开始整合Gemini Live API,为开发者构建和部署语音翻译应用提供便利。这一功能直指远程协作、客户服务和内容播出等高频需求,例如在跨国会议、网课教学或广播中实现实时翻译。东南亚出行与服务平台Grab正利用该模型进行测试。数据显示,Grab用户每月通过其平台进行的语音通话量超过1000万次,该公司显然看到了消除司机与乘客间语言障碍的巨大价值。其他早期体验者如娱乐巨头CJ ENM和实时音视频平台LiveKit,也反馈了该模型在翻译准确度和超低延迟方面的出色表现。

EntAI观察

当我们审视跨越万亿级单词的月度翻译规模时,不难发现,语言早已不是谷歌生态中的数据洪流,而是连接数十亿用户的深层纽带。此次从“处理文本”转向“演绎语音”,可能意味着谷歌正试图通过捕捉语调、停顿和情绪,将翻译技术从简单的信息传递工具,升级为更具渗透力的人际连接媒介。这种转变不仅体现在消费级应用的沉默体验上,更深层的价值或许在于对企业级实时通信的重新定义:将实时的多语言会议与呼叫中心变得低门槛化。值得关注的是,这种对语音本色的保留也可能引发关于深度伪造语音的新一轮审视,当机器能完美复刻说话者的声音特征时,内容真实性的边界将面临更复杂的界定。

觉得有用?点个赞

作者 entai_admin

发表回复

© 2026 EntAI恩钛智能  |  上海市黄浦区人民路879号人民大楼一楼(后) | EntAI@EntAIAI.com
友情链接: IAICA 国际智能照护协会 IAICA.NGO® OECD AI UNESCO AI Partnership on AI Stanford HAI MIT CSAIL Berkeley BAIR 清华AIR 北京智源BAAI Hugging Face Papers With Code Google DeepMind Anthropic