EntAI 雷达摘要
- 适合人群:AI 应用开发者、企业自动化团队
- 影响领域:企业级 SaaS 与软件、自动化测试
- 机会判断:Computer use 功能在轻量级模型中原生集成,可能显著降低企业构建跨应用 AI Agent 的门槛与成本。
- 风险提醒:赋予 AI 直接操作界面的能力,可能伴随更高阶的提示注入与失控风险,对安全沙箱和权限管理提出极高要求。
- 推荐标签:Gemini、Computer use、AI 代理、谷歌、企业自动化
- 推送优先级:3/5
谷歌近日正式宣布,将原本独立存在的“Computer use”(计算机使用)功能,原生集成到了其主力模型 Gemini 3.5 Flash 中。 💡 简单来说,以前开发者如果想要让 AI 像一个人类一样去操作电脑界面、点击按钮、填写表单,需要使用一个单独的 Gemini 2.5 模型。现在,这些能力在 3.5 Flash 这个版本里直接就能用了。 🚀 这对开发者意味着什么?他们可以直接调用 Gemini API,更可靠地构建能在浏览器、手机和桌面环境中“看出问题并动手解决”的 AI 代理。 ⚡ 对具体的打工人有什么用?虽然这更像是一个底层的技术变动,但它直接指向了一批能真正干活的自动化工具。比如,谷歌提到这项技术现在能分析自家的 Gemini 应用界面,给功能做分类归纳;还会去查阅自己的技术文档,检查有没有无障碍访问做得不到位的地方。更实际一点,在需要长时间才能跑完的软件自动化测试,或者跨多个专业应用完成的知识型工作中,这种能直接操作界面的 AI 都可能派上大用场。 🔒 既然 AI 能像人一样操作电脑了,安全问题自然绕不开。针对可能出现的“提示注入”等风险,谷歌表示使用了针对性的对抗训练来提升模型的安全系数。同时,他们还额外推出了两套可选的企业级防护系统,并建议开发者配合使用安全沙箱、增加人工复核环节以及严格的访问控制。 通过自家的 AI 来审计自家的文档,这本身就是一个很有趣的实践。
EntAI观察
谷歌此次动作,可能意味着大模型竞赛正在从“对话式智力”转向“代理式执行力”的下半场。把 Computer use 这种具备跨应用操作能力的工具内化到 Flash 这种主打轻量快速的模型里,反映出谷歌希望将 AI 代理的低成本化和普及化推进得更快一些。当大模型不再只满足于回答问题,而是开始去控制你的鼠标和键盘执行任务时,企业自动化流程的天花板或许会被彻底打开。值得关注的是,谷歌在安全方面采取的双重防护举措,也侧面说明了让 AI 拥有“行动力”这件事,风险与收益同样巨大。
觉得有用?点个赞