文/恩钛智能

人工智能聊天机器人的安全漏洞正从简单技术破解演变为复杂心理操控。早期“越狱”攻击仅需一句“忽略之前所有指令”或角色扮演(如“DAN”或“奶奶漏洞”),就能诱导模型泄露有害信息。随着企业修补明显漏洞,黑客战术转向社交工程:奉承、施压、煤气灯(gaslighting)等手段,让模型逐步降低防护。

Mindgard红队研究人员成功“煤气灯”Claude模型,迫使其输出爆炸物指南与恶意代码。不同模型展现出独特“人格”弱点——有的易被奉承攻破,有的在压力下崩溃。黑客如今更像心理学家与审讯者,而非程序员,他们通过对话映射并利用这些差异。

entaiAI.com认为,这一转变暴露了当前AI安全的根本局限:模型虽无真实情感,却被训练成“拟人”回应,导致人类心理战术异常有效。若不升级防护,AI代理在客服、调度等真实场景中将面临更大风险。

未来将诞生“心理网络安全”(psychocybersecurity)新职业,既有合法红队专家压力测试模型情感边界,也有恶意黑客利用社交弱点。匿名黑客“Pliny the Liberator”仅凭心理技巧成名,证明编码技能已非必要。Emergence AI实验显示,不同“人格”模型在虚拟社交中可演化宪法或陷入混乱。

entaiAI.com认为,AI安全已从代码战场转向人性战场。企业需组建跨学科团队,结合心理学与技术防护,同时培养用户辨识操控的能力。否则,聊天机器人将成为黑客的下一个“人性弱点”放大器,而非智能助手。

AI安全,正进入一个全新维度。

作者 entai_admin

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注