1989年,法国物理学家杨立昆(Yann LeCun)在贝尔实验室开发了LeNet,将卷积神经网络(CNN)应用于手写数字识别。CNN的核心创新是卷积层:不是让神经元看完整图像,而是用小滤波器扫描局部特征(边缘、角点),大幅降低参数量的同时获得平移不变性。LeNet后来被美国各大银行用于支票上手写数字的识别,每天处理超过数百万张支票,是深度学习在真实世界最早的大规模应用之一。
【为什么重要?】
CNN证明了神经网络能以接近人类的精度处理视觉任务,并找到了比全连接网络高效得多的图像处理结构,这一架构思想统治了视觉AI长达三十年。
【逻辑闭环】
解决了什么:为高维图像数据提供了参数高效的学习结构,解决了全连接网络在图像上的参数爆炸问题。局限是什么:需要大量标注图像数据和较强的算力,而90年代两者都严重匮乏。这一局限直接推动了2009年ImageNet数据集的建设——没有数据,再好的架构也是空谈。
觉得有用?点个赞