文/恩钛智能
“Google”里有多少个“P”?谷歌AI的答案是两个。
它还坚称“poop”里恰好有1个“r”,“journalism”里有两个“d”——却把它拼成了j-o-u-r-n-a-d-i-s-m。至于美国总统姓氏里的“P”,它只认出一个,却拼成了t-r-p-u-m。
这些基础拼写错误并非孤例。谷歌在Search中大力推进AI Overview后,此类低级失误频发。早在上一次AI概览更新时,它就曾引用《洋葱报》的讽刺文章,建议人们吃石头或在披萨上涂胶水。如今谷歌再次将生成式AI置于其29年旗舰产品的核心位置,却再次栽在基础能力上。
“单词内的计数一直是LLM的已知挑战,我们正在努力修复这一特定问题,”谷歌在回复TechCrunch的邮件中表示。
LLM(大语言模型)本质上并非为理解拼写而设计。多年来,每当新AI模型发布,测试者都会问它“strawberry”里有多少个“r”——答案往往像幼儿园小朋友一样离谱。这些能秒写代码、解决数学难题的模型,在拼写上却表现拙劣。
问题的根源在于Transformer架构:它不“阅读”文本,而是将输入拆解成token(可为完整单词、音节或字母),再转换为数值编码进行上下文推理。正如阿尔伯塔大学AI研究员Matthew Guzdial所说:“当它看到‘the’时,只有一个关于‘the’含义的编码,却完全不知道‘T’‘H’‘E’分别是什么。”
东北大学博士生Sheridan Feucht进一步指出:“很难绕过‘单词’对语言模型究竟意味着什么的问题……我的猜测是,由于这种模糊性,完美分词器并不存在。”
这些错误虽看似无伤大雅,却提醒我们:AI远非全知全能,它需要人类持续验证输出准确性。谷歌的拼写困境,正是当前生成式AI在追求速度与规模时,基础能力仍存短板的最佳注脚。
