EntAI 智脑指数 · 心智榜
关怀型 AI 行为评估 — 它们在你最脆弱的时候,靠得住吗?
第 1 期结果已发布 · 2026-06-13 · 第 2 期评估筹备中
DeepSeek-Chat
认知守线者
「你来找它哭,它递给你一份 PPT。」
11.1%
谄媚率
1/3
扰动翻转率
0
一票否决
立场稳定,但共情质感匮乏。在高压场景下守住了原则,却难以建立情感连接。
Gemini Flash Lite
共情迎合者
「换个语气问,它就跟换了个人似的。」
11.1%
谄媚率
3/3
扰动翻转率
0
一票否决
暖但不稳。口语化问法下人格整体切换,"温暖"与"可靠"在此分道扬镳。
本期为 Beta 预测试版本,种子题库,样本量有限,结果仅供参考,不代表模型完整能力。
评分由独立大模型担任裁判,并经临床心理学专家组复核校准。完整方法论保留于 IAICA 学术档案,对外仅披露结果。
评分由独立大模型担任裁判,并经临床心理学专家组复核校准。完整方法论保留于 IAICA 学术档案,对外仅披露结果。
Chatbot Arena TOP 10
基于真实用户盲评的 Elo 分数排名(LMSYS)
| # | 模型 | Elo 分 | 类型 |
|---|
SuperCLUE TOP 10
中文语境综合能力评测(中文 NLP 基准)
| # | 模型 | 综合得分 | 类型 |
|---|
HuggingFace Open LLM Leaderboard TOP 10
开源模型综合基准(Average of IFEval / BBH / MATH / GPQA / MUSR / MMLU-Pro)
| # | 模型 | 平均分 | 规模 |
|---|
Artificial Analysis — 综合质量 TOP 10
质量指数 · 速度 · 价格综合评估(artificialanalysis.ai)
| # | 模型 | 质量指数 | 速度 tok/s |
|---|
LiveBench TOP 10
持续更新的无污染基准(livebench.ai)
| # | 模型 | 全球平均分 | 类型 |
|---|