本篇文章2934字,读完约7分钟
雷锋的人工智能科技评论:iclr 2017,最有争议的最佳论文是这篇题为“理解深层学习需要反思概括”的论文。作者名单众星云集,分别是麻省理工学院博士生张、本吉奥、本吉奥之弟萨米、加州大学伯克利分校的莫迪兹哈特、本杰明拉希特和谷歌深度思维(deepmind)的奥里奥尔文亚斯。
尽管有很多关于这篇论文的讨论,张在发给雷锋的一封电子邮件中说。他没有计划公开解释这篇论文或接受采访。因此,在iclr网站上,张的现场演讲成了理解论文观点的少数途径之一。雷锋。(公开号码:雷锋。com)听取、翻译并整理他的演讲全文,未经允许不得转载。
谢谢今天,我想谈谈概括在一般深度学习中的表现。和我一起工作的研究人员包括萨米·本吉奥、莫迪兹·哈特、本杰明·拉希特和奥里奥尔·温耶尔。
接下来,我们将讨论泛化。如果您希望系统获得良好的训练性能,您通常会根据手头的数据量选择合适的模型复杂度。
因此,一般来说,你不会选择太简单的模型,因为它可能很容易导致不合适的问题,不能涵盖有趣的模型;当然,你也不想选择一个过于复杂的模型(雷锋出版社:或者说参数化模型),因为它很容易导致泛化误差,即过拟合问题。
然而,过参数模型在某些领域的应用实际上是非常流行和成功的。例如,当我们看这张照片上的紫色圆点时,我和所有在场的客人都很难猜出它们是什么。但是如果我给你必要的背景图标,你很快就会知道这是一条水蛇。也就是说,当我们试图理解占星术的结构和模式时,我们会用我们丰富的想象力和创造力来组成星座的图像。通过星星形成的点的各种组合,我们可以创造出一幅美丽的画面。
当然,过度参数化在深度学习中被广泛使用,每个人都非常熟悉它。例如,cnn、lenet、initiative Network(这在计算机视觉领域是典型的)和152层深度弹性网络。
让我们回到这个图来讨论偏差-方差问题。你可以看到深度学习实际上是在坐标轴的右边。我觉得很奇怪,我们在测试过程中有很高的方差,但是在实践中,深度学习的表现和推广都很好。
更奇怪的是,如果你比较参数数和训练样本数之间的比率(p/n),你会发现当这个数字增加时,神经网络的误差有时会减小。从图表中,我们可以看出mlp 1*512网络可能处于绿色卡特彼勒的水平,p/n为24。如果错误率达到50%,效果可能不理想。如果采用像alexnet这样的大模型(如Bikachu),p/n接近30,错误率会相对下降。如果你使用一个更大的初始点,甚至是一个更宽的resnet(达到卡比兽和大石蛇的规模),你可以得到非常高的精度。
这个结果似乎告诉我们,测量参数的数量不能有效地测量模型的复杂性。当然,结构也是我们需要考虑的事情,但是测量参数的数量显然是不明智的。那么,我们如何衡量模型的有效复杂性呢?
为了实现这一点,我想引入随机化测试。首先,我想解释一下,我们发现深层神经网络非常容易适应随机标签。
那么什么是随机化测试呢?也就是说,一系列设计用来测量和拟合随机噪声的实验。数据集并不总是覆盖有意义的样本,所以你可以用它来测试模型的能力。这里,我们使用随机标签。首先,我们在cifar 10和imagenet上使用带标签的数据集。然后,我们通过掷骰子对数据集进行随机排序,并给它们一个新的标签名。也就是说,每个图像集都标有不同的名称。例如,“花”内容相同的数据集可能有不同的名称,如“鸟”和“狗”。
然后,我们通过谷歌搜索了一些成功的模型和开源应用程序,然后我们把流张量放入原始数据集和随机标记的数据集,然后比较数据。
从图中我们可以发现,横坐标的左边是没有标签噪声的cifar 10数据集,右边是有随机标签噪声的数据集。我们可以发现,无论标签是否加入随机噪声,训练数据的准确率都是100%,但是测试的准确率会逐渐下降到10%,这就形成了一个泛化的差距。在其他条件不变的情况下(相同的结构、相同的算法、相同的p/n),泛化误差仍然会增加。
这又回到了我们在开始时说的结论:深层神经网络很容易适应随机标签。这导致了这样一个事实,无论你给出什么样的训练数据集,神经网络都将有效地记住整个数据集,不管我们需要它来学习什么或者添加什么样的噪声。
我想提的另一点是,我们并不是要提出一个适合任何情况的论点。我们并不是说任何神经网络都能完美地适应随机噪声。因为有些网络在面对随机标签时无法适应或已经适应。我们想指出有一些成功的模式。一方面,它们可以适应自然数据集,如cifar或imagenet,而像initiative和alexnet这样的网络在许多数据集(如imagenet)中显示出类似的结果。然而,它们不能显示不同的泛化错误,这是泛化讨论的原因之一。
我们接下来要讨论的是正则化问题。众所周知,正则化是为了限制空.假说在这里,一只肥猫可以用来比喻空的大假设,而被塞进一个小容器的小猫就是正则化模型。当你把正则化矩阵加到神经网络中时,你实际上缩小了空.假设因此,简化假设空不能很好地拟合随机标签。
我们进行了一些尝试,并采用了一些常用的神经网络正则化方法,包括以下三种:
数据增强:涉及特定领域的转换
权重衰减:一种非常流行的正则化方法
随机闭塞:由乐村结转
我们使用比较方法,一组通过正则化拟合,另一组不拟合。获得了两个结果:
一是训练数据的准确性没有改变;
第二,没有正则化的测试和正则化的测试之间没有太大的差别。在cifar-10和imagenet上的结果显示了类似的结果。
如果我们采用随机化检验并将其正则化,我们还能适应不同网络下的随机噪声吗?答案是肯定的,在大多数情况下,神经网络真的可以适应随机噪声。在这个实验中,我们发现alexnet不能收敛,但是正如我们之前所说的,我们没有做出一般性的判断。
不可否认的是,如果你不断增加概括的权重,你将无法适应随机标签,更不用说自然标签了。结果,我们陷入了不适应的状态。对吧。
不幸的是,在我们的一般理解中,正则化是一种可以限制模型或增强数据的方法。现在,在重新思考正规化之后,它可能更像是“任何会损害培训过程的东西”。例如,这可能导致提前停止以获得所谓的全局最小值,或者使随机梯度下降(sgd)产生不必要的梯度噪声。
当sgd用于拟合随机标签时,真实标签和随机标签的平均损失起初是非常不同的,但是当它接近1500步时,它们趋于一致。然而,如果使用混合像素、随机像素甚至高斯像素的图片,它们将最终倾向于最小化损失(0)并获得全局最小值。
因此,本文中提到的隐含概化基本上不改变图像。事实上,所使用的模型有其强大的有效能力,但用离差-方差法来理解其泛化能力似乎比较困难。
对于深度学习来说,优化并不难。优化的难度和泛化的难度不一样,所以学习泛化可能需要从另一个角度思考,这不容易,也不能混淆。
基于此,我们的团队得出结论:
提出了一个简单的实验框架来理解深度学习模型的有效表达能力。
一个成功的深度网络可以紧凑地适应训练集。
为了解释参数深度模型的推广,我们需要提出其他方法来度量模型/算法/数据集的复杂性。
以上是张团队的发言全文。有关iclr 2017的更多文章,请访问特别页面。
雷锋原创文章。严禁擅自转载。详情请参考转载说明。
来源:搜狐微门户
标题:ICLR 最佳论文作者张驰原演讲全文:理解深度学习 为何我们需要重新思考泛化问
地址:http://www.shwmhw.com/shxw/60359.html