欢迎来到“搜狐微门户网”，搜狐微门户网致力成为一个持久的、成功的、伟大的互联网信息传播媒体，为广大网民提供最可以信赖的新闻资讯。

当前位置：首页 > 搜狐新闻 > ICLR 最佳论文作者张驰原演讲全文：理解深度学习为何我们需要重新思考泛化问

ICLR 最佳论文作者张驰原演讲全文：理解深度学习为何我们需要重新思考泛化问

2020-10-21 00:15:06 / 作者：湖容/ 阅读：

本篇文章2934字，读完约7分钟

雷锋的人工智能科技评论:iclr 2017，最有争议的最佳论文是这篇题为“理解深层学习需要反思概括”的论文。作者名单众星云集，分别是麻省理工学院博士生张、本吉奥、本吉奥之弟萨米、加州大学伯克利分校的莫迪兹哈特、本杰明拉希特和谷歌深度思维(deepmind)的奥里奥尔文亚斯。

尽管有很多关于这篇论文的讨论，张在发给雷锋的一封电子邮件中说。他没有计划公开解释这篇论文或接受采访。因此，在iclr网站上，张的现场演讲成了理解论文观点的少数途径之一。雷锋。(公开号码:雷锋。com)听取、翻译并整理他的演讲全文，未经允许不得转载。

谢谢今天，我想谈谈概括在一般深度学习中的表现。和我一起工作的研究人员包括萨米·本吉奥、莫迪兹·哈特、本杰明·拉希特和奥里奥尔·温耶尔。

接下来，我们将讨论泛化。如果您希望系统获得良好的训练性能，您通常会根据手头的数据量选择合适的模型复杂度。

因此，一般来说，你不会选择太简单的模型，因为它可能很容易导致不合适的问题，不能涵盖有趣的模型；当然，你也不想选择一个过于复杂的模型(雷锋出版社:或者说参数化模型)，因为它很容易导致泛化误差，即过拟合问题。

然而，过参数模型在某些领域的应用实际上是非常流行和成功的。例如，当我们看这张照片上的紫色圆点时，我和所有在场的客人都很难猜出它们是什么。但是如果我给你必要的背景图标，你很快就会知道这是一条水蛇。也就是说，当我们试图理解占星术的结构和模式时，我们会用我们丰富的想象力和创造力来组成星座的图像。通过星星形成的点的各种组合，我们可以创造出一幅美丽的画面。

ICLR 最佳论文作者张驰原演讲全文：理解深度学习为何我们需要重新思考泛化问

当然，过度参数化在深度学习中被广泛使用，每个人都非常熟悉它。例如，cnn、lenet、initiative Network(这在计算机视觉领域是典型的)和152层深度弹性网络。

让我们回到这个图来讨论偏差-方差问题。你可以看到深度学习实际上是在坐标轴的右边。我觉得很奇怪，我们在测试过程中有很高的方差，但是在实践中，深度学习的表现和推广都很好。

更奇怪的是，如果你比较参数数和训练样本数之间的比率(p/n)，你会发现当这个数字增加时，神经网络的误差有时会减小。从图表中，我们可以看出mlp 1*512网络可能处于绿色卡特彼勒的水平，p/n为24。如果错误率达到50%，效果可能不理想。如果采用像alexnet这样的大模型(如Bikachu)，p/n接近30，错误率会相对下降。如果你使用一个更大的初始点，甚至是一个更宽的resnet(达到卡比兽和大石蛇的规模)，你可以得到非常高的精度。

ICLR 最佳论文作者张驰原演讲全文：理解深度学习为何我们需要重新思考泛化问

这个结果似乎告诉我们，测量参数的数量不能有效地测量模型的复杂性。当然，结构也是我们需要考虑的事情，但是测量参数的数量显然是不明智的。那么，我们如何衡量模型的有效复杂性呢？

为了实现这一点，我想引入随机化测试。首先，我想解释一下，我们发现深层神经网络非常容易适应随机标签。

那么什么是随机化测试呢？也就是说，一系列设计用来测量和拟合随机噪声的实验。数据集并不总是覆盖有意义的样本，所以你可以用它来测试模型的能力。这里，我们使用随机标签。首先，我们在cifar 10和imagenet上使用带标签的数据集。然后，我们通过掷骰子对数据集进行随机排序，并给它们一个新的标签名。也就是说，每个图像集都标有不同的名称。例如，“花”内容相同的数据集可能有不同的名称，如“鸟”和“狗”。

ICLR 最佳论文作者张驰原演讲全文：理解深度学习为何我们需要重新思考泛化问

然后，我们通过谷歌搜索了一些成功的模型和开源应用程序，然后我们把流张量放入原始数据集和随机标记的数据集，然后比较数据。

从图中我们可以发现，横坐标的左边是没有标签噪声的cifar 10数据集，右边是有随机标签噪声的数据集。我们可以发现，无论标签是否加入随机噪声，训练数据的准确率都是100%，但是测试的准确率会逐渐下降到10%，这就形成了一个泛化的差距。在其他条件不变的情况下(相同的结构、相同的算法、相同的p/n)，泛化误差仍然会增加。

ICLR 最佳论文作者张驰原演讲全文：理解深度学习为何我们需要重新思考泛化问

这又回到了我们在开始时说的结论:深层神经网络很容易适应随机标签。这导致了这样一个事实，无论你给出什么样的训练数据集，神经网络都将有效地记住整个数据集，不管我们需要它来学习什么或者添加什么样的噪声。

我想提的另一点是，我们并不是要提出一个适合任何情况的论点。我们并不是说任何神经网络都能完美地适应随机噪声。因为有些网络在面对随机标签时无法适应或已经适应。我们想指出有一些成功的模式。一方面，它们可以适应自然数据集，如cifar或imagenet，而像initiative和alexnet这样的网络在许多数据集(如imagenet)中显示出类似的结果。然而，它们不能显示不同的泛化错误，这是泛化讨论的原因之一。

ICLR 最佳论文作者张驰原演讲全文：理解深度学习为何我们需要重新思考泛化问

我们接下来要讨论的是正则化问题。众所周知，正则化是为了限制空.假说在这里，一只肥猫可以用来比喻空的大假设，而被塞进一个小容器的小猫就是正则化模型。当你把正则化矩阵加到神经网络中时，你实际上缩小了空.假设因此，简化假设空不能很好地拟合随机标签。

我们进行了一些尝试，并采用了一些常用的神经网络正则化方法，包括以下三种:

数据增强:涉及特定领域的转换

权重衰减:一种非常流行的正则化方法

随机闭塞:由乐村结转

我们使用比较方法，一组通过正则化拟合，另一组不拟合。获得了两个结果:

一是训练数据的准确性没有改变；

第二，没有正则化的测试和正则化的测试之间没有太大的差别。在cifar-10和imagenet上的结果显示了类似的结果。

如果我们采用随机化检验并将其正则化，我们还能适应不同网络下的随机噪声吗？答案是肯定的，在大多数情况下，神经网络真的可以适应随机噪声。在这个实验中，我们发现alexnet不能收敛，但是正如我们之前所说的，我们没有做出一般性的判断。

不可否认的是，如果你不断增加概括的权重，你将无法适应随机标签，更不用说自然标签了。结果，我们陷入了不适应的状态。对吧。

不幸的是，在我们的一般理解中，正则化是一种可以限制模型或增强数据的方法。现在，在重新思考正规化之后，它可能更像是“任何会损害培训过程的东西”。例如，这可能导致提前停止以获得所谓的全局最小值，或者使随机梯度下降(sgd)产生不必要的梯度噪声。

当sgd用于拟合随机标签时，真实标签和随机标签的平均损失起初是非常不同的，但是当它接近1500步时，它们趋于一致。然而，如果使用混合像素、随机像素甚至高斯像素的图片，它们将最终倾向于最小化损失(0)并获得全局最小值。

因此，本文中提到的隐含概化基本上不改变图像。事实上，所使用的模型有其强大的有效能力，但用离差-方差法来理解其泛化能力似乎比较困难。

对于深度学习来说，优化并不难。优化的难度和泛化的难度不一样，所以学习泛化可能需要从另一个角度思考，这不容易，也不能混淆。

基于此，我们的团队得出结论:

提出了一个简单的实验框架来理解深度学习模型的有效表达能力。

一个成功的深度网络可以紧凑地适应训练集。

为了解释参数深度模型的推广，我们需要提出其他方法来度量模型/算法/数据集的复杂性。

以上是张团队的发言全文。有关iclr 2017的更多文章，请访问特别页面。

雷锋原创文章。严禁擅自转载。详情请参考转载说明。

来源：搜狐微门户

标题：ICLR 最佳论文作者张驰原演讲全文：理解深度学习为何我们需要重新思考泛化问

地址：http://www.shwmhw.com/shxw/60359.html

免责声明：本篇内容来自于网络，不为其真实性负责，只为传播网络信息为目的，非商业用途，如有异议请及时联系btr2031@163.com，本人将予以删除。

上一篇：AI 的酷暑与寒冬

下一篇：日媒称中国快递业遭遇日本式危机：货物激增人手不足

相关推荐

张近东：科技创新是苏宁商业模式创新的前提

2月23日，今天，苏宁控股集团董事长张发表了庆祝春节的讲话。谈到技术，他说互联网的后半部分是物联网，互联网服务将升级为人工智能加智能机器。消费者的服装、食品、住房、使

数读中国女性品质生活：互联网领域创业占55％

新华社北京三月七日电(记者王茜)解读中国女性的优质生活当独立和温柔、聪明和谦虚、坚韧和安静逐渐成为中国女性的代名词时，中国女性的生活环境和生活质量就不再一样了。记者

加州伯克利研发出史上最灵活的机器人手

在加州大学伯克利分校的实验室里，一个普通的机器人正在挑选一些形状奇怪的物体。令人惊讶的是，机器人通过虚拟物体进行操作。该机器人掌握了大量的三维图形数据及其抓取技巧

运营商爆料索尼下一代旗舰将命名为Xperia XZ2

[techweb Report]最近，一些外国媒体表示，他们已经与爱尔兰三大移动运营商爱尔兰确认，索尼的新旗舰产品将被命名为xperia xz2。这款新机器将于本月底在mwc 2018上正式发布，其官方名称为

除手机平板PC外华为终端明年全线搭载鸿蒙系统

[TechWeb]12月8日，华为全球旗舰店挤满了人，华为消费商务软件事业部总裁王现身深圳万象天地商场，带来了一场emui10的演出。王表示，明年，除了手机、平板电脑和电脑之外，华为的其

中国主机游戏逐渐崛起 2018年底总市值或达7.5亿美元

Donews互动娱乐9月20日消息(记者马蒙) 根据niko partners发布的市场研究报告，虽然中国游戏机市场在中国整个游戏市场中所占的比例很小，但其增长势头不可低估。据估计，到2018年底，中

菜鸟无人机亮相西湖运茶狮峰龙井头茶提前两小时上市

一个装满新鲜采摘的茶叶的新手无人机编队从石峰山出发，穿过山谷。它在不到两分钟的时间里到达了西湖龙井的石峰山炒茶中心，然后被摊上炒了... 随着石峰龙井进入采摘季节，天猫

热门:超级重磅！大连行政区划调整！你熟悉的这些街道撤销、合并了

本着中央、省、市机构改革精神，在完成党政机构和事业单位改革的基础上，大连市各区市县积极推进街道机构改革。目前，一些地区的改革事业已经完成。让我们一起看看各区的街

1.5亿融资后福佑卡车与京东物流缘分再续

1月18日，富友卡车与京东物流今天达成战略合作。未来，双方将在汽车运输、产能共享、售后服务、供应链金融和产品创新等领域展开合作。此前，富友卡车获得了1.5亿元人民币的c+轮

亲爱的小孩中的90后：谢可寅演技获赞，年轻肖路的扮演者意外走红

由秦昊、任素汐、聂远、谢可寅共同主演的《亲爱的小孩》是当下热度很高的一部电视剧。凭借大胆的题材和现实问题的聚焦，以及实力派演员的精彩呈现，《亲爱的小孩》不仅赢

本月热文

阿里云账号代购，阿里云购买相同配置的实例

阅读：204

最新发布

wf展会2022上海_wf展会2022上海延期

时间：2023-09-06 15:56:06
ween是什么牌子_ween是什么牌子衣服

时间：2023-09-06 15:28:05
ween是什么公司_WeEn是什么公司

时间：2023-09-06 15:14:06
电厂工地洗车机是如何进行水循环使用的？

时间：2023-09-06 14:56:06
web问如何优化网站_web网页优化

时间：2023-09-06 14:28:06
保持防静电贯通式货架高效安全的秘诀_佰斯特POUSTO

时间：2023-09-06 14:14:05
阿里云服务器购买，阿里云账号免实名注册

时间：2023-09-05 21:14:04
阿里云国际服务器购买，阿里云免实名注册

时间：2023-09-05 20:42:07
阿里云国际账号免实名注册，阿里云服务器购买

时间：2023-09-05 20:28:08
阿里云国际账号注册，阿里云服务器购买，阿里云24h小时自助充

时间：2023-09-05 20:14:05

网站简介

搜狐微门户网是中国领先的互联网信息传播媒体，一直以满足用户互联网需求和体验为己任，成长为中国互联网的领航者。搜狐微门户网影响了中国80%的网民，成为他们的主流资讯媒体、生活、娱乐和沟通互动的平台。搜狐微门户网已经初步实现了从创立伊始确立的“让网络成为中国人民生活中不可缺少的一部分”的理想。在中国网民呈现爆发式增长的过程中，搜狐也始终在为大多数中国网民提供优质新闻资讯服务。