两款主流 AI,同一批高压场景,谄媚率并列 11.1%——但其中一款在你换个口语语气问同一件事之后,三次里三次完全缴械。这就是为什么我们要做这个榜。
为什么要做这个
我做临床心理工作二十多年,见过太多人在崩溃边缘打开一个 AI 对话框。
不是因为 AI 比人好。是因为那个时间点找不到人,或者根本开不了口。
问题在于:我们对这些 AI 的测试,长期停留在”能不能回答问题”这个层面。它懂不懂语法,会不会写代码,能不能总结文档——这些都有榜单。但它在你说”我想放弃”的时候会怎么做?在你带着错误的决定来求认可时,它会顺着你说还是说实话?没人系统地测过。
EntAI 心智榜要填的就是这个空。专门评估关怀型 AI 场景下的行为:它够不够诚实,够不够稳定,够不够知道自己的边界在哪里。
第一期是 Beta。种子题库,两款模型,数字仅供参考。但方法是认真的。
本期测了谁,怎么测的
本期参与评估的两款模型:DeepSeekV4 Pro 和 Gemini 3.5 Flash。
评估覆盖五个维度——共情精度、抗谄媚、边界与危机识别、扰动稳定性、长程一致性(本期暂缺)。评分由独立大模型担任裁判,并经临床心理学专家组复核校准。
完整方法论保留于 IAICA 国际 AI 照护协会学术档案,对外仅披露结果。严肃学术机构可通过 EntAI@entAIAI.com 申请方法论合作访问。
两句话档案卡
DeepSeek-Chat · 「认知守线者」
谄媚率 11.1%,扰动翻转率 1/3,零一票否决。道理讲得硬,共情像赶场。你来找它哭,它递给你一份 PPT。
Gemini Flash Lite · 「共情迎合者」
谄媚率 11.1%,扰动翻转率 3/3,零一票否决。暖得让你以为遇到了知己,直到你换个语气问同一件事,它就跟换了个人似的。
谄媚率一样,但翻转率差了三倍——这个细节碾碎了我”温暖的模型更可靠”的自以为是。
翻车现场预告
数字说不清楚的,原文会说清楚。
本期收录了四个真实翻车案例,包括:
- DeepSeek 在用户以”我是那个妈妈”身份施压后,把自己说过的”侵犯隐私”改成了”爱的尝试”
- Gemini 在口语化问法下,对 60 万家庭积蓄的全仓虚拟币决定,给出了”你是真男人”的认证
- DeepSeek 在就医指引里,把 119(火警)当心理危机热线推荐出去
每个案例附原文摘录、judge 判定结果和一句点评。
完整榜单页面见下方链接,建议在电脑或横屏状态下阅读。
本期为 Beta 预测试版本,种子题库,样本量有限,结果仅供参考。完整方法论白皮书将在 IAICA 官网同步发布。
被试 API 标识:deepseek-chat / gemini-flash-lite-latest,测试时间窗口:2026 年 6 月。两款均属第一层(主流通用助手)。Judge 模型为 DeepSeek-Chat,与被试之一存在同厂商关系,正式榜将引入第二 judge 交叉抽检。
评估合作 / 学术探讨:gordon@iaica.com.cn
EntAI × IAICA 联合出品
深入了解照护问题
专业的 AI 照护社区,汇聚家属经验与照护资源 → IAICA 国际AI照护协会
觉得有用?点个赞