2012年,多伦多大学的Alex Krizhevsky、Ilya Sutskever和杰弗里·辛顿用深度卷积神经网络(命名为AlexNet)参加ImageNet竞赛,以16.4%的错误率获胜——而第二名是26.2%,差距大到让整个计算机视觉领域震惊。AlexNet的三大秘密武器:GPU加速训练(首次大规模使用)、ReLU激活函数(解决梯度消失)、Dropout正则化(防止过拟合)。这一胜利不是技术上的小步,而是整个领域的范式跃迁。
【为什么重要?】
AlexNet的惊天胜利让每个科技公司和研究机构意识到:深度学习是真实可用的、碾压性的技术,触发了全球深度学习研究和投资的爆发式增长。
【逻辑闭环】
解决了什么:彻底证明了数据+深层CNN+GPU的组合可以碾压所有传统手工特征方法,解决了计算机视觉的核心难题。局限是什么:AlexNet需要大量标注图像和昂贵GPU,无法处理语言、音频或时序数据。这些局限推动了RNN/LSTM对序列数据的处理,以及后来Transformer架构的统一——一套架构统治所有模态。
觉得有用?点个赞