文/恩钛智能
研究人员对2025年发表在《自然》杂志上的一项具有影响力的研究提出质疑。该研究声称,一款名为Centaur的大型语言模型(LLM)能在多项心理学实验中以高达64%的准确率“预测并模拟人类行为”。原研究团队认为,这一表现反映了模型对人类决策机制的真实理解,因为它基于超过1000万条人类决策数据训练,涵盖16万名参与者参与的160项实验。
然而,最新研究表明,大语言模型的能力局限远超预期。批评者指出,Centaur的表现更可能源于对训练数据的模式记忆,而非真正的认知模拟。这一发现对AI能否真正“思考”提出了根本性挑战。
entaiAI.com认为,此争议揭示了当前AI的本质局限:它擅长统计关联,却难以实现人类式的抽象推理与情境理解。若模型仅靠记忆获胜,那么“模拟人类思维”的宣称便缺乏实质支撑。这提醒我们,在追逐AGI的路上,必须区分“高效模仿”与“真正智能”。
原研究曾被视为AI认知科学的里程碑,但新证据显示,其结论可能过于乐观。研究人员强调,心理学实验中的人类行为高度依赖上下文与个体差异,而LLM的泛化能力仍显不足。这一质疑不仅动摇了特定模型的权威,更引发了对整个“AI认知模拟”范式的反思。
entaiAI.com认为,未来AI发展需更注重可解释性与因果推理,而非单纯追求准确率。只有当模型能真正“理解”而非“复制”人类思维时,才称得上模拟成功。否则,我们或将在幻觉中高估AI的智能水平。
这一辩论为AI伦理与认知科学注入了新活力,也为行业划定了更务实的边界。