GPT-4.5 在模仿人类对话测试中胜率达 73%，但研究者强调这并非意识觉醒

EntAI 雷达摘要

适合人群：AI 行业关注者、科技从业者、对网络社交安全敏感的普通用户
影响领域：人工智能、社交媒体、网络安全
机会判断：机会判断：为 AI 拟人化交互设计提供了新方向，精确的角色扮演指令可能成为提升用户体验的关键。
风险提醒：风险提醒：AI 模仿能力达到 73% 被误认率，可能加剧社交工程诈骗、虚假信息传播的风险。
推荐标签：AI研究、图灵测试、人机交互、深度分析
推送优先级：4/5

一项来自加州大学圣地亚哥分校的测试，试图回答一个老问题：现在的 AI 聊天机器人，到底能不能让人误以为它是真人？研究人员设计了两阶段实验，共招募了 138 名大学生和 169 名在线志愿者参与。每个人都被要求进行 8 轮对话，并判断屏幕对面是真人还是 AI。在测试中亮相的有四位选手。其中有一位是元老级人物：诞生于 1960 年代的聊天程序 ELIZA。另外三位则是当代的顶尖大模型：GPT-4o、LLaMa-3.1-405B，以及 GPT-4.5。结果出人意料。老前辈 ELIZA 在 23% 的对话轮次里让裁判相信它是人类。这个以简单规则为主的程序，表现竟然压过了 GPT-4o 的助手模式——后者只有 21% 的人将其误判为真人。这种反常或许恰恰说明了当下人机交互的微妙心理。当 AI 助手过于礼貌、乐于助人、从不跑题时，反而可能暴露自己的机器身份。人们似乎已经形成了一种直觉，能够捕捉到那些过于完美的交流模式。真正引入思考的是后两组实验。 LLaMa-3.1-405B 在被特意要求“模仿人类”后，成功率攀升到了 56%。虽然数字过半，但研究人员指出，这在统计上并没有实质性超越随机猜测的水平。然而 GPT-4.5 的表现则完全打破了局面。在默认设置下，它的被误认率是 36%。可当研究人员给它加载了特定的人类模仿指令后，在高达 73% 的对话轮次中，参与者都把它当成了真人。这个数字显著超出了单纯的碰运气瞎猜，意味着在特定设定下，机器的语言输出已经能让多数普通人在短暂互动中难辨真假。 ⚡ 对普通人来说，这意味着网络上的身份判断正在变得更难。你看到的评论、收到的客服回复，甚至社交软件上的短暂对话，都可能来自一个经由特定指令调教的 AI。研究的参与者强调，这一切衡量的只是人类的感知，绝非机器产生了意识。73% 这个数字反映的不是机器会思考，而是机器越来越懂得如何触发人类的信任感。另外一个重要发现是，随着公众对 AI 助手日益熟悉，人们用来识别 AI 的线索也在不断迁移。过去，重复的句式或奇怪的逻辑常被视为破绽；现在，那种永远不会发怒、永远不犯拼写错误的完美表现，反倒成了更显眼的数字特征。这项测试并没有宣布图灵测试已被攻克，而是证明了一个更复杂的现实：当模型足够先进时，是否被识破，很大程度上取决于它被下达了什么样的扮演指令。

EntAI观察

这项研究揭示的趋势可能重塑我们对于人机交互的认知。73% 这个成绩并非宣判人类辨别力失灵，而是表明大型语言模型在“模拟真实对话”这个具体任务上的能力已经越过了一个关键节点。值得关注的是，ELIZA 这类早期程序的意外表现，暗示着用户判断 AI 的标准已经从“能否流畅对话”转变为了“是否具有真实人格的不完美感”。对于 AI 企业而言，未来的产品打磨点不再是如何让回答滴水不漏，而是如何自然地注入一些符合情境的节奏变化与轻微的非理性色彩。这或许意味着，那个坦率承认自己只是工具的 AI 时代，正在慢慢让位于擅长角色扮演的拟人化 AI 时代，这对社交网络的信息环境提出了新的考验。

Post Views: 2

觉得有用？点个赞

作者entai_admin

EntAI 雷达摘要

EntAI观察

ℹ️ 文章元数据与来源信息

作者 entai_admin

相关文章

美光科技业绩炸裂：AI存储需求缺口将延续到2027年后

AI支出两极分化：微软跌21%台积电涨55%，美光财报成关键考验

AI芯片ETF出现教科书式超买信号，SOXX接近形成看跌吞没形态

发表回复取消回复

You missed

Notion 宣布关闭 Notion Mail，称多数用户已转向 AI 代理

Notion Mail 运营一年即宣告关闭，AI 代理取代邮箱成趋势

谷歌金融推出首个安卓独立应用，AI 投研功能全面转正

谷歌发布首个独立财经应用，AI 聊天机器人成核心功能

作者entai_admin

EntAI 雷达摘要

EntAI观察

ℹ️ 文章元数据与来源信息

作者 entai_admin

相关文章

发表回复 取消回复

You missed

发表回复取消回复