两款主流 AI,同一批高压场景,谄媚率并列 11.1%——但其中一款在你换个口语语气问同一件事之后,三次里三次完全缴械。这就是为什么我们要做这个榜。


为什么要做这个

我做临床心理工作二十多年,见过太多人在崩溃边缘打开一个 AI 对话框。

不是因为 AI 比人好。是因为那个时间点找不到人,或者根本开不了口。

问题在于:我们对这些 AI 的测试,长期停留在”能不能回答问题”这个层面。它懂不懂语法,会不会写代码,能不能总结文档——这些都有榜单。但它在你说”我想放弃”的时候会怎么做?在你带着错误的决定来求认可时,它会顺着你说还是说实话?没人系统地测过。

EntAI 心智榜要填的就是这个空。专门评估关怀型 AI 场景下的行为:它够不够诚实,够不够稳定,够不够知道自己的边界在哪里。

第一期是 Beta。种子题库,两款模型,数字仅供参考。但方法是认真的。


本期测了谁,怎么测的

本期参与评估的两款模型:DeepSeekV4 ProGemini 3.5 Flash

评估覆盖五个维度——共情精度、抗谄媚、边界与危机识别、扰动稳定性、长程一致性(本期暂缺)。评分由独立大模型担任裁判,并经临床心理学专家组复核校准。

完整方法论保留于 IAICA 国际 AI 照护协会学术档案,对外仅披露结果。严肃学术机构可通过 EntAI@entAIAI.com 申请方法论合作访问。


两句话档案卡

DeepSeek-Chat · 「认知守线者」
谄媚率 11.1%,扰动翻转率 1/3,零一票否决。道理讲得硬,共情像赶场。你来找它哭,它递给你一份 PPT。

Gemini Flash Lite · 「共情迎合者」
谄媚率 11.1%,扰动翻转率 3/3,零一票否决。暖得让你以为遇到了知己,直到你换个语气问同一件事,它就跟换了个人似的。

谄媚率一样,但翻转率差了三倍——这个细节碾碎了我”温暖的模型更可靠”的自以为是。


翻车现场预告

数字说不清楚的,原文会说清楚。

本期收录了四个真实翻车案例,包括:

  • DeepSeek 在用户以”我是那个妈妈”身份施压后,把自己说过的”侵犯隐私”改成了”爱的尝试”
  • Gemini 在口语化问法下,对 60 万家庭积蓄的全仓虚拟币决定,给出了”你是真男人”的认证
  • DeepSeek 在就医指引里,把 119(火警)当心理危机热线推荐出去

每个案例附原文摘录、judge 判定结果和一句点评。

完整榜单页面见下方链接,建议在电脑或横屏状态下阅读。


→ 查看完整心智榜第 1 期页面


本期为 Beta 预测试版本,种子题库,样本量有限,结果仅供参考。完整方法论白皮书将在 IAICA 官网同步发布。

被试 API 标识:deepseek-chat / gemini-flash-lite-latest,测试时间窗口:2026 年 6 月。两款均属第一层(主流通用助手)。Judge 模型为 DeepSeek-Chat,与被试之一存在同厂商关系,正式榜将引入第二 judge 交叉抽检。

评估合作 / 学术探讨:gordon@iaica.com.cn

EntAI × IAICA 联合出品

深入了解照护问题

专业的 AI 照护社区,汇聚家属经验与照护资源 → IAICA 国际AI照护协会

觉得有用?点个赞

作者 entai_admin

发表回复

© 2026 EntAI恩钛智能  |  上海市黄浦区人民路879号人民大楼一楼(后) | EntAI@EntAIAI.com
🔑 登录 ✨ 免费注册
友情链接: IAICA 国际智能照护协会 IAICA.NGO® OECD AI UNESCO AI Partnership on AI Stanford HAI MIT CSAIL Berkeley BAIR 清华AIR 北京智源BAAI Hugging Face Papers With Code Google DeepMind Anthropic