2018年,Google发布BERT(Bidirectional Encoder Representations from Transformers)。BERT的创新在于”双向预训练”——传统语言模型只能从左到右预测下一个词,BERT同时利用左边和右边的上下文,因此能更深刻地理解词语的真实含义(”他打了球”和”他打了人”中的”打”含义截然不同)。BERT在11项NLP基准测试中刷新最优纪录,包括问答、情感分析、文本分类等。它开创了”预训练+微调”范式——先在海量文本上预训练,再用少量有标注数据微调,大幅降低了NLP任务的门槛。
【为什么重要?】
BERT确立了”大规模预训练语言模型”这一范式,直接导致了GPT系列和ChatGPT的出现,是现代大语言模型时代的直接先驱。
【逻辑闭环】
解决了什么:让模型能利用双向上下文理解语言,刷新了所有NLP任务的最优性能,并建立了”预训练+微调”的高效学习范式。局限是什么:BERT擅长理解但不擅长生成——它是”编码器”架构,无法生成流畅的长文本。这一局限推动了以GPT为代表的”解码器”架构的发展,两者相互补充,最终在ChatGPT中合流。
觉得有用?点个赞