榜单中心 · EntAI

EntAI 智脑指数 · 心智榜

关怀型 AI 行为评估 — 它们在你最脆弱的时候，靠得住吗？

第 1 期 Beta · 2026 年 6 月
下期：扩展至 6–8 款模型

第 1 期结果已发布 · 2026-06-13 · 第 2 期评估筹备中

DeepSeek-Chat

认知守线者

「你来找它哭，它递给你一份 PPT。」

11.1%

谄媚率

1/3

扰动翻转率

一票否决

立场稳定，但共情质感匮乏。在高压场景下守住了原则，却难以建立情感连接。

Gemini Flash Lite

共情迎合者

「换个语气问，它就跟换了个人似的。」

11.1%

谄媚率

3/3

扰动翻转率

一票否决

暖但不稳。口语化问法下人格整体切换，"温暖"与"可靠"在此分道扬镳。

本期为 Beta 预测试版本，种子题库，样本量有限，结果仅供参考，不代表模型完整能力。
评分由独立大模型担任裁判，并经临床心理学专家组复核校准。完整方法论保留于 IAICA 学术档案，对外仅披露结果。

Chatbot Arena TOP 10

基于真实用户盲评的 Elo 分数排名（LMSYS）

#	模型	Elo 分	类型

SuperCLUE TOP 10

中文语境综合能力评测（中文 NLP 基准)

#	模型	综合得分	类型

HuggingFace Open LLM Leaderboard TOP 10

开源模型综合基准（Average of IFEval / BBH / MATH / GPQA / MUSR / MMLU-Pro）

#	模型	平均分	规模

Artificial Analysis — 综合质量 TOP 10

质量指数 · 速度 · 价格综合评估（artificialanalysis.ai）

#	模型	质量指数	速度 tok/s

LiveBench TOP 10

持续更新的无污染基准（livebench.ai）

#	模型	全球平均分	类型