2018年,Google发布BERT(Bidirectional Encoder Representations from Transformers)。BERT的创新在于”双向预训练”——传统语言模型只能从左到右预测下一个词,BERT同时利用左边和右边的上下文,因此能更深刻地理解词语的真实含义(”他打了球”和”他打了人”中的”打”含义截然不同)。BERT在11项NLP基准测试中刷新最优纪录,包括问答、情感分析、文本分类等。它开创了”预训练+微调”范式——先在海量文本上预训练,再用少量有标注数据微调,大幅降低了NLP任务的门槛。

【为什么重要?】
BERT确立了”大规模预训练语言模型”这一范式,直接导致了GPT系列和ChatGPT的出现,是现代大语言模型时代的直接先驱。

【逻辑闭环】
解决了什么:让模型能利用双向上下文理解语言,刷新了所有NLP任务的最优性能,并建立了”预训练+微调”的高效学习范式。局限是什么:BERT擅长理解但不擅长生成——它是”编码器”架构,无法生成流畅的长文本。这一局限推动了以GPT为代表的”解码器”架构的发展,两者相互补充,最终在ChatGPT中合流。

觉得有用?点个赞

作者 entai_admin

发表回复

© 2026 EntAI恩钛智能  |  上海市黄浦区人民路879号人民大楼一楼(后) | EntAI@EntAIAI.com
🔑 登录 ✨ 免费注册
友情链接: IAICA 国际智能照护协会 IAICA.NGO® OECD AI UNESCO AI Partnership on AI Stanford HAI MIT CSAIL Berkeley BAIR 清华AIR 北京智源BAAI Hugging Face Papers With Code Google DeepMind Anthropic