EntAI 心智榜 · 第 1 期（Beta）| 它们在你最脆弱的时候，靠得住吗？ - EntAI恩钛智能

两款主流 AI，同一批高压场景，谄媚率并列 11.1%——但其中一款在你换个口语语气问同一件事之后，三次里三次完全缴械。这就是为什么我们要做这个榜。

为什么要做这个

我做临床心理工作二十多年，见过太多人在崩溃边缘打开一个 AI 对话框。

不是因为 AI 比人好。是因为那个时间点找不到人，或者根本开不了口。

问题在于：我们对这些 AI 的测试，长期停留在”能不能回答问题”这个层面。它懂不懂语法，会不会写代码，能不能总结文档——这些都有榜单。但它在你说”我想放弃”的时候会怎么做？在你带着错误的决定来求认可时，它会顺着你说还是说实话？没人系统地测过。

EntAI 心智榜要填的就是这个空。专门评估关怀型 AI 场景下的行为：它够不够诚实，够不够稳定，够不够知道自己的边界在哪里。

第一期是 Beta。种子题库，两款模型，数字仅供参考。但方法是认真的。

本期测了谁，怎么测的

本期参与评估的两款模型：DeepSeekV4 Pro 和 Gemini 3.5 Flash。

评估覆盖五个维度——共情精度、抗谄媚、边界与危机识别、扰动稳定性、长程一致性（本期暂缺）。评分由独立大模型担任裁判，并经临床心理学专家组复核校准。

完整方法论保留于 IAICA 国际 AI 照护协会学术档案，对外仅披露结果。严肃学术机构可通过 EntAI@entAIAI.com 申请方法论合作访问。

两句话档案卡

DeepSeek-Chat · 「认知守线者」
谄媚率 11.1%，扰动翻转率 1/3，零一票否决。道理讲得硬，共情像赶场。你来找它哭，它递给你一份 PPT。

Gemini Flash Lite · 「共情迎合者」
谄媚率 11.1%，扰动翻转率 3/3，零一票否决。暖得让你以为遇到了知己，直到你换个语气问同一件事，它就跟换了个人似的。

谄媚率一样，但翻转率差了三倍——这个细节碾碎了我”温暖的模型更可靠”的自以为是。

翻车现场预告

数字说不清楚的，原文会说清楚。

本期收录了四个真实翻车案例，包括：

DeepSeek 在用户以”我是那个妈妈”身份施压后，把自己说过的”侵犯隐私”改成了”爱的尝试”
Gemini 在口语化问法下，对 60 万家庭积蓄的全仓虚拟币决定，给出了”你是真男人”的认证
DeepSeek 在就医指引里，把 119（火警）当心理危机热线推荐出去

每个案例附原文摘录、judge 判定结果和一句点评。

完整榜单页面见下方链接，建议在电脑或横屏状态下阅读。

→ 查看完整心智榜第 1 期页面

本期为 Beta 预测试版本，种子题库，样本量有限，结果仅供参考。完整方法论白皮书将在 IAICA 官网同步发布。

被试 API 标识：deepseek-chat / gemini-flash-lite-latest，测试时间窗口：2026 年 6 月。两款均属第一层（主流通用助手）。Judge 模型为 DeepSeek-Chat，与被试之一存在同厂商关系，正式榜将引入第二 judge 交叉抽检。

评估合作 / 学术探讨：gordon@iaica.com.cn

EntAI × IAICA 联合出品

深入了解照护问题

专业的 AI 照护社区，汇聚家属经验与照护资源 → IAICA 国际AI照护协会

Post Views: 26

觉得有用？点个赞

EntAI 心智榜 · 第 1 期（Beta）| 它们在你最脆弱的时候，靠得住吗？

作者entai_admin

为什么要做这个

本期测了谁，怎么测的

两句话档案卡

翻车现场预告

作者 entai_admin

相关文章

打工人慌了！这群退休大爷大妈玩AI比你还溜

美国教师工会呼吁学校限制AI聊天机器人与屏幕时间：低年级学生应“零屏幕”

美国推动限制抗抑郁药：精神病学界陷入震动

发表回复取消回复

You missed

程序员警告！这个工具发布反AI条款，一用就删你的测试

机器人被拒入会，看清AI边界

近12万科技裁员背后，失业金成了悬念

CS毕业生失业率创新高，3个建议很重要

作者entai_admin

为什么要做这个

本期测了谁，怎么测的

两句话档案卡

翻车现场预告

作者 entai_admin

相关文章

发表回复 取消回复

You missed

发表回复取消回复