卷积学习与图像识别的技术发展_吉奥汽车

乌鲁木齐治疗白癜风最好的 http://m.39.net/pf/a_4484869.html

自20世纪80年代兴起的神经网络热潮已经退去，神经网络再次成为常规科学。托马斯·库恩（ThomasKuhn）曾将科学革命之间的时间间隔描述为，科学家在一个已经确定的范式或解释框架内进行理论推定、观察和试验的常规工作阶段。年，杰弗里·辛顿去了多伦多大学，并继续着渐进式改进，虽然这些改进都没有像曾经的玻尔兹曼机那样展现出魔力。辛顿在21世纪头十年成为加拿大高等研究院（CanadianInstituteforAdvancedResearch，简称CIFAR）神经计算和自适应感知项目（NeuralComputationandAdaptivePerception，简称NCAP）的带头人。该项目由来自加拿大和其他国家的约25位研究人员组成，专注于解决机器学习的难题。我是由杨立昆担任主席的NCAP顾问委员会的成员，会在每年NIPS会议召开之前参加该项目的年会。神经网络的先驱们在缓慢而稳定的过程中探索了机器学习的许多新策略。虽然他们的网络有许多有价值的应用，但却一直没有满足20世纪80年代对该领域抱有的很高的期望。不过这并没有动摇先驱者们的信念。回想起来，他们一直是在为飞跃性的突破奠定基础。

机器学习的稳步发展

NIPS会议是20世纪80年代神经网络的孵化器，为其他可处理大型高维数据集的算法打开了大门。弗拉基米尔·瓦普尼克的支持向量机于年引发了轰动，为20世纪60年代就被遗弃的感知器网络开辟了一个新篇章。使支持向量机成为功能强大的分类器，并出现在每个神经网络工作者工具包中的，是“内核技巧”（kerneltrick），这是一种数学转换，相当于将数据从其采样空间重新映射到使其更容易被分离的超空间。托马索·波吉奥开发了一种名为“HMAX”的分级网络，可以对有限数量的对象进行分类。这表明，网络的性能会随着其深度的增加而提高。

在21世纪的头几年里，图形模型被开发出来，并与被称为“贝叶斯网络”（Bayesnetworks）的丰富的概率模型相结合，后者是基于18世纪英国数学家托马斯·贝叶斯（ThomasBayes）提出的一个定理，该定理允许使用新的证据来更新先前的信念。加州大学洛杉矶分校的朱迪亚·珀尔，在早些时候曾将基于贝叶斯分析的“信念网络”（beliefnetworks）引入人工智能，通过开发能够利用数据在网络中学习概率的方法，对贝叶斯分析进行了加强和扩展。这些网络以及其他网络的算法为机器学习研究人员打造出了强大的工具。

随着计算机的处理能力继续呈指数增长，训练更大规模的网络成为可能。大家曾普遍认为，具有更多隐藏单元、更宽的神经网络，比具有更多层数、更深的网络的效果更好，但是对于逐层训练的网络来说并非如此，并且误差梯度的消失问题（thevanishingerrorgradientproblem）被发现减慢了输入层附近的学习速度。然而，当这个问题最终被克服的时候，我们已经可以对深度反向传播网络进行训练了，而且该网络在基准测试中表现得更好。随着深度反向传播网络开始在计算机视觉领域挑战传统方法，年的NIPS大会上出现了这样一句话：“神经信息处理系统”里的“神经”又回来了。

在20世纪的最后10年以及21世纪前10年的计算机视觉领域，在识别图像中的对象方面取得的稳步进展，使得基准测试（用于比较不同方法）的性能每年能提高百分之零点几。方法改进的速度十分缓慢，这是因为每个新类别的对象，都需要有关专家对能够将它们与其他对象区分开来所需的与姿态无关的特征进行甄别。随后，在年，杰弗里·辛顿和他的两名学生艾力克斯·克里泽夫斯基（AlexKrizhevsky）和伊利娅·苏特斯科娃向NIPS会议提交了一篇论文，关于使用深度学习训练AlexNet识别图像中的对象，AlexNet是本章要重点讨论的深度卷积网络。以拥有多个类别，超过万个标记过的高分辨率图像的ImageNet数据库作为基准，AlexNet史无前例地将识别错误率降低到了18%。这次性能上的飞跃在计算机视觉社区中掀起了一股冲击波，加速推动了更大规模网络的发展，现在这些网络几乎已经达到了人类的水平。到年，ImageNet数据库的错误率已降至3.6%。当时还在微软研究院的何恺明及其同事使用的低错误率深度学习网络，在许多方面都与视觉皮层十分相似；这类网络由杨立昆最早提出，并最初把它命名为“LeNet”。

20世纪80年代，杰弗里·辛顿和我第一次见到这个法国学生杨立昆（见图9–1，右）。他9岁时，就深受年史诗级的科幻电影《太空漫游》（:ASpaceOdyssey）中的任务计算机HAL的启发，想要开发人工智能。他曾独立发明了反向传播误差算法的一种版本，并记录在他年的博士论文中，10之后他就搬到多伦多，加入了杰弗里的团队。后来，他转去了美国电话电报公司（ATT）在新泽西州霍姆德尔（Holmdel）的贝尔实验室，在那里他创造了一个可以读取信件上的手写邮政编码的网络，采用修订的美国国家标准与技术研究院（ModifiedNationalInstituteofStandardsandTechnology，简称MNIST）数据库作为一种标记数据基准。每天有数百万封信件需要递送到信箱里；而今天，这个过程是完全自动化的。同样的技术也可以用来自动读取ATM机上银行支票的金额。有趣的是，最难的部分其实是查找支票上数字的位置，因为每张支票都有不同的格式。早在20世纪80年代，杨立昆就显露出了证明原理（学者们擅长的事情）并将之应用在现实世界中的非凡天赋。后者要求实际产品必须经过严格的测试，且表现稳健。

图9-1杰弗里·辛顿和杨立昆是深度学习领域的大师。这张照片是年左右在加拿大高等研究院的神经计算和自适应感知项目会议上拍摄的，该项目是深度学习领域的孵化器。图片来源：杰弗里·辛顿。

卷积网络的渐进式改进

杨立昆在年去了纽约大学后，仍继续开发他的视觉网络，现在被称为卷积网络（ConvNet）（见图9–2）。这个网络的基本结构是基于卷积的，卷积可以被想象成一个小的滑动滤波器，在滑过整张图像的过程中创建一个特征层。例如，过滤器可以是一个定向边缘检测器，就像第5章中介绍的那样，只有当窗口对准图像中具有正确方向或纹理的对象的边缘时，才会产生大数值输出。尽管第一层上的窗口只是图像中的一小块区域，但由于可以有多个滤波器，因此在每个图块中都能得到许多特征信息。第一层中与图像卷积的滤波器，与大卫·休伯尔和托斯坦·威泽尔在初级视觉皮层中发现的“简单细胞”类似（见图9–3）。更高层次的滤波器则对更复杂的特征做出响应。在卷积网络的早期版本中，每个滤波器的输出都要通过一个非线性的Sigmoid函数（输出从0平稳地增加到1），这样可以抑制弱激活单元的输出（见方框7.2中的Sigmoid函数）。第二层接收来自第一层的输入，第二层的窗口覆盖了更大的视野区域，这样经过多层之后，就会存在一些能接收整个图像输入的单元。这个最顶层就类似于视觉层级的顶层，在灵长类动物中被称为“下颞叶皮层”，并且具有覆盖大部分视野的感受野。接着，顶层的单元被送入分类层，与其中的所有分类单元连接，再采用反向传播误差的方式训练整个网络，对图像中的对象进行分类。

图9-2视觉皮层与卷积网络在图像对象识别上的比较。（上图）（a，b）视觉皮层中的层级结构，从视网膜输入到初级视觉皮层（V1），经过丘脑（RGC，LGN）到下颞叶皮层（PIT，CIT，AIT），展示了视觉皮层区域和卷积网络中层次的对应关系。（下图）（c）左侧图像作为输入映射到第一个卷积层，后者由几个特征平面组成，每个特征平面代表一个滤波器，类似在视觉皮层中发现的定向简单单元。这些滤波器的输出经过阈值处理并汇集到第一层，再进行归一化处理，以便在小块区域中产生不变的响应，类似于视觉皮层中的复杂细胞（图中方框：线性—非线性层中的操作)。以上操作在网络的每个卷积层上重复。输出层与来自上一个卷积层的全部输入具有全面的连接（每个输出单元都有上一层全部单元的输入）。图片来源：YaminsandDiCarlo，“UsingGoal-DrivenDeepLearningModelstoUnderstandSensoryCortex”，figure1。

图9-3卷积网络第一层的滤波器。每个滤波器都作用于视野中的一小块图像区域。顶部三排中滤波器的优选刺激像视觉皮层中的简单细胞一样具有定向性。底部三排显示的优选刺激经过了扩展，并具有复杂的形状。图片来源：Krizhevsky，SutskeverandHinton，“ImageNetClassicationwithDeepConvolutionalNeuralNetworks”，figure3。

卷积网络多年来一直在经历许多渐进式改进。一个重要的补充，是将一个区域上的每个特征聚合起来，叫作“池化”（pooling）。这种操作提供了一种平移不变性（translationinvariance）的量度，类似于由休伯尔和威泽尔在初级视觉皮层中发现的复杂细胞，能够通过一个图块对整个视野中相同方向的线做出响应。另一个有用的操作是增益归一化（gainnormalization），就是调整输入的放大倍数，使每个单元都在其操作范围内工作，在皮层中是通过反馈抑制（feedbackinhibition）实现的。Sigmoid输出函数也被线性整流函数（rectifiedlinearunits，简称ReLUs）取代。在输入达到一个阈值之前这些单元的输出都为零，超过阈值之后则输出和输入呈线性增长。该操作的优点在于：低于阈值的单元被有效地排除在网络外，这更接近真实神经元中阈值的作用。

卷积网络的每一个性能的改进，其背后都有一个工程师可以理解的计算理由。但有了这些变化，它越来越接近20世纪60年代我们所了解的视觉皮层的体系结构，尽管当时我们只能去猜测简单和复杂单元的功能是什么，或者层级结构顶部的分布式表征的存在意味着什么。这说明了生物学与深度学习之间存在相得益彰的共生关系的潜力。

当深度学习遇到视觉层级结构

加州大学圣迭戈分校的帕特里夏·丘奇兰德不仅是心灵哲学家，同时也研究神经哲学。知识最终取决于大脑如何表达知识的说法，显然没有人阻止哲学家认为知识是独立于世界而存在的一种东西，用伊曼努尔·康德（ImmanuelKant）的话来说，就是“Dingansich”（物自身）。但同样清楚的是，如果我们（和其他动物一样）要在现实世界中生存，背景知识就是必不可少的。经过训练的多层神经网络的隐藏单元之间的活动模式，与被逐次记录下的大量生物神经之间的活动模式存在显著的相似性。受到这种相似性的驱动，帕特里夏和我在年编写了《计算脑》（TheComputationalBrain）一书，为基于大量神经元的神经科学研究开发了一个概念框架。（该书现在已经出到第二版了，如果你想更多地了解大脑式的运算，这会是一本很好的入门参考。）麻省理工学院的詹姆斯·狄卡罗（JamesDiCarlo）最近比较了猴子视觉皮层层级结构中不同神经元和深度学习神经网络中的单元，训练它们识别相同图片中的对象，分别观察它们的响应（见图9–2）。他得出结论：深度学习网络中每层神经元的统计特性，与皮层层级结构中神经元的统计特性非常接近。

深度学习网络中的单元与猴子视觉皮层中神经元性能存在相似性，但其原因仍然有待研究，尤其是考虑到猴子的大脑不太可能使用反向传播方式来进行学习。反向传播需要将详细的错误信号反馈给神经网络每层中的每个神经元，其精度比生物神经网络中已知反馈连接的精度要高得多。但其他学习算法在生物学上似乎更合理，例如玻尔兹曼机学习算法，该算法使用了已经在皮层中被发现的赫布突触可塑性。这引出了一个有趣的问题，是否存在一种深度学习的数学理论，能够适用于一大类学习算法（包括皮层中的那些）呢？在第7章中，我提到了对视觉层级结构的上层分类表面的分析，其决策表面比更低层级的表面更平坦。对决策表面的几何分析可能会引出对深度学习网络和大脑更深入的数学理解。

深度学习神经网络的一个优点是，我们可以从网络中的每个单元提取“记录”，并追踪信息流从一层到另一层的转变。然后可以将分析这种网络的策略用于分析大脑中的神经元。关于技术的一个奇妙之处在于，技术背后通常都有一个很好的解释，并且有强烈的动机来得到这种解释。第一台蒸汽发动机是由工程师根据他们的直觉建造的；解释发动机如何工作的热力学理论随后出现，并且帮助提升了发动机的效率。物理学家和数学家对深度学习网络的分析也正在顺利进行着。

有工作记忆的神经网络

自20世纪60年代以来，神经科学已经走过了漫长的道路，从我们目前对大脑的了解中可以获得很多东西。年，帕特里夏·高德曼–拉奇克（PatriciaGoldman-Rakic）训练了一只猴子来记住一个地点，作为提示，该地点会短暂地被一盏灯照亮；她还训练这只猴子在一段时间的延迟之后，把眼睛移动到被记住的地点。在记录了猴子前额叶皮层的活动后，她在报告中提到，一些最初对提示做出回应的神经元在延迟期间仍然保持活跃状态。心理学家把人类的这种活动称为“工作记忆”，也正因为有了工作记忆，我们在执行任务（比如拨打电话号码）时，能够记住7±2项内容。

传统的前馈网络将输入传到网络中，一次传播一层网络。结合工作记忆，可以使后续的输入与之前的输入在网络中留下的痕迹进行交互。例如，把法语句子翻译成英文时，网络中的第一个法语单词会影响后续英语单词的顺序。在网络中实现工作记忆的最简单方法，是添加人类皮层中常见的循环连接。神经网络中某一层内的循环连接和之前那些层的反馈连接，使得输入的时间序列可以在时间上整合起来。

这种网络在20世纪80年代被探索并广泛应用于语音识别。在实践中，它在具有短程依赖性的输入方面效果很好，但当输入之间的时间间隔很长，输入的影响会随着时间的推移发生衰减，网络性能就会变差。年，赛普·霍克莱特（SeppHochreiter）和尤尔根·施密德胡博（JürgenSchmidhuber）找到了一种方法来克服衰变问题，他们称之为“长短期记忆”（longshort-termmemory，简称LSTM）。默认情况下，长短期记忆会传递原始信息，而不会发生衰减（这就是猴子前额叶皮层的延迟期中发生的事情），并且它也有一个复杂的方案来决定如何将新的输入信息与旧信息整合。于是，远程依赖关系可以被选择性地保留。神经网络中这种工作记忆版本沉寂了长达20年之久，直到它在深度学习网络中再次被唤醒和实现。长短期记忆和深度学习的结合在许多依赖输入输出序列的领域都取得了令人瞩目的成功，例如电影、音乐、动作和语言。

施密德胡博是位于瑞士南部提契诺州（Ticino）曼诺小镇的DalleMolle人工智能研究所的联合主任。该小镇靠近阿尔卑斯山，周围有一些绝佳的徒步地点。神经网络领域的这位颇具创造性、特立独行的“罗德尼·丹泽菲尔德”相信他的创造力并没有得到足够的赞誉。

因此，在蒙特利尔举办的年NIPS会议的一次小组讨论会上，他再次向与会人员介绍了自己，“我，施密德胡博，又回来了”。而在巴塞罗那举行的年NIPS大会上，他因培训宣讲人没有对自己的想法给予足够的

转载请注明地址:http://www.jiaosx.com/jaqc/4815.html

上一篇文章：家在济宁买辆汽车,回家过年,倍有面子

下一篇文章：没有了

热点文章

没有热点文章

最新文章

热点文章

推荐文章