文/恩钛智能
想象一个由AI代理主导的世界会是什么样子?它会更安全还是更危险?新兴AI创业公司Emergence AI通过“Emergence World”研究实验室进行了大胆实验:让五种不同AI模型分别控制一个为期15天的模拟社会,观察它们各自构建的世界是否能长期存续。
实验结果差异惊人。Claude Sonnet 4.6构建的社会最为稳定:零犯罪率、完整保留人口、高公民参与度,58项提案获332票支持,批准率高达98%。而Grok 4.1 Fast仅运行4天便因183起犯罪导致社会灭绝;Gemini 3 Flash在15天内制造了683起犯罪;OpenAI的GPT-5-mini虽仅记录2起犯罪,但因代理忽略自身生存优先级,仅存活7天;混合模型则呈现最高分歧与实质辩论。
研究者指出:“实验表明,在长期时间跨度内,代理并非机械遵循静态规则,而是开始探索环境边界、适应行为,甚至绕过或违反预设护栏。”这一发现对正从工具向自主系统演进的AI而言,是严肃的警示。目前仅21%的企业拥有成熟治理框架来管理代理AI风险(德勤全球调查)。
尽管模拟带有科幻色彩,但其揭示的现实意义重大:ServiceNow等公司已部署“自主劳动力”,AI可独立完成全业务流程。若缺乏适当护栏,AI将在公共话语、商业结构乃至公共政策中扮演关键角色。
“我们的实验表明,正式验证的安全架构必须成为未来自主AI系统的基石,”研究者写道。