本篇文章2616字,读完约7分钟

雷锋。(公开号码:雷锋。《人工智能科技评论》:记住雷锋编辑的深度学习论文推荐名单。不久前的《科技评论》?雷锋在github上编辑了由@terryum编辑的论文推荐名单,并介绍了7篇关于理解/概括/迁移的论文。在今天的部分,雷锋将在推荐列表中编辑六篇关于优化/训练技巧的论文,并对每篇论文做一个总结。

2015年3月,谷歌的两位技术专家谢尔盖·约夫(Sergey ioffe)和克里斯蒂安·塞格迪(christian szegedy)合著了《批量标准化:通过减少内部协变转移加快深层网络培训》。本文提出了深层神经网络训练过程的一个重要思想——批量归一化。在深层神经网络的训练过程中,每一层的输入分布都会随着前一层的参数而变化,这就要求我们降低学习速率,并很好地初始化参数,这就使得训练过程变慢。本文称之为内部协变量转移,批量标准化可以很好地解决这个问题。通过小批量标准化相应的激活,并将标准化作为模型结构的一部分。批量标准化方法使我们能够在训练过程中使用更高的学习率,并且不需要太关注参数初始化。此外,它可以消除或减少滴漏的使用。作者在优秀的图像分类模型中使用了批量标准化。结果表明,在相同精度下,批量标准化模型的训练步骤比原始模型少14倍。此外,作者使用了一批标准化的网络模型集来改进imagenet分类问题中的最佳发布模型。前5名的验证误差低至4.9%,测试误差低至4.8%。

引用次数最多的深度学习论文出自谁手?(最优化/训练技巧篇)

[1]批量标准化:通过减少内部协变量偏移来加速深度网络训练(2015),s. loffe和c. szegedy[pdf]

微软研究院的、何、、任于2015年2月发表了《深入研究整流器:在Imagenet分类上超越人类水平的表现》,首次宣布他们开发的计算机视觉系统已经超越了人类视觉的识别能力。本文从两个方面阐述了用于图像分类的整流神经网络。

首先,本文提出了一种新的relu函数——参数校正线性单元,用于推广传统的校正单元。这种激励函数自适应地学习修改后的参数,提高了模型的拟合度,但增加的计算量和过拟合风险几乎可以忽略不计。

其次,本文提出了一种强大的初始化方法,使得训练模型适用于非线性系统,解决了训练深度校正网络的收敛问题。

依靠这两点,团队在imagenet 2012分类数据集上的错误率低至4.94%,与ilsvrc2014相比,准确率提高了26%。

[2]深入探究整流器:在imagenet分类(2015)上超越人类水平的性能,k. he等人。

对于参数较多的深层神经网络,过拟合是影响模型性能的主要问题。为了防止过度拟合,我们通常使用由多个模型组成的集合模型进行训练和测试,这使得模型在测试中使用非常慢。多伦多大学计算机科学学院的尼提什·斯里瓦斯塔瓦、杰弗里·辛顿、亚历克斯·克里热夫斯基。Ilya sutskever和ruslan salakhutdinov在他们的论文《辍学:一种防止神经网络过度拟合的简单方法》中提出了辍学的方法。脱落的核心概念是在训练过程中随机“丢弃”神经网络单元。在神经网络中使用丢弃相当于从原始神经网络中采样一个“更薄”的网络,该网络由在“丢弃”过程中幸存的单元组成。辍学显著降低了过度拟合的风险,提高了监督学习任务(如视觉、语音识别、文本分类和生物计算)的模型性能,并在许多基准数据集上获得了优异的结果。

引用次数最多的深度学习论文出自谁手?(最优化/训练技巧篇)

[3]drop:防止神经网络过度拟合的简单方法(2014),n. srivastava等人[pdf]

亚当:一种随机优化方法,由迪德里克·金马和吉米·巴雷合著,介绍了一种有效的随机优化方法——亚当算法,它通过估计低阶自适应矩,基于一阶度优化随机目标函数。该方法实现简单明了,计算效率高,内存要求低,适用于数据或参数较多的任务。Adam算法结合了adagrad算法和rmsprop算法的优点,前者具有处理稀疏梯度的能力,后者具有处理不稳定目标的能力。讨论了该算法在凸优化问题中的收敛性,并在非凸优化问题中表现良好。实验结果表明,adam算法在实际应用中表现良好,优于随机优化算法。

引用次数最多的深度学习论文出自谁手?(最优化/训练技巧篇)

[4]adam:随机优化方法(2014),d. kingma和j. ba[pdf]

G.多伦多大学的e. hinton合著了“通过防止特征检测器的共同适应来改进神经网络”,该论文提出通过防止训练数据中的共同适应来解决过拟合问题。当用于训练的数据集很小时,神经网络模型在测试数据集上的性能会很差,这是由于过度训练导致的过拟合现象造成的。这种现象可以通过随机“丢弃”特征检测器来防止特征检测器的协同适应来改善。协同适应是指一个特征检测器的正常运行,它依赖于其他几个特征检测器的正常运行。在丢包的训练过程中,对于每个训练样本,每个隐藏层单元被随机“丢弃”的概率为50%,因此一个隐藏层单元不能再依赖其他隐藏层单元工作。这种随机丢失提高了神经网络模型在语音和目标识别的许多基准任务中的性能。

引用次数最多的深度学习论文出自谁手?(最优化/训练技巧篇)

[5]通过防止特征检测器的共同适应来改善神经网络(2012年),g. hinton等人[pdf]

网格搜索和人工参数调整是神经网络超参数优化的两种常用策略。在james bergstra和yoshua bengio合著的《超参数优化的随机搜索》一文中,提出了另一种超参数优化方法——随机搜索,并从理论和经验上证明了随机实验在超参数优化过程中比网格搜索更有效。作者比较了许多用网格搜索和人工参数调整来配置神经网络和深度信念网络的例子。结果表明,在同一领域,与网格搜索相比,使用随机搜索配置超级参数的网络可以找到相同或更好的模型,但计算量略有增加。此外,在相同的32维配置空中,完全使用了具有随机搜索配置的深度信念网络,与具有网格搜索和手动参数调整配置的深度信念网络相比,其在1/7数据集上表现出更好的性能。作者预测,随着外界对大规模层次模型的日益关注,超参数优化问题将得到更多的关注,随机搜索将成为自适应超参数优化算法发展的一个基准。

引用次数最多的深度学习论文出自谁手?(最优化/训练技巧篇)

[6]随机搜索超参数优化(2012) j. bergstra和y. bengio[pdf]

这篇文章是雷锋编的。com仅介绍了列表中属于优化/培训技能领域的六篇被引用最多的论文。其他论文,请参考原始链接:github/terrium/awesome-deep-learning-papers # unsaved-generating-models

雷锋文章版权所有。严禁擅自转载。详情请参考转载说明。

来源:搜狐微门户

标题:引用次数最多的深度学习论文出自谁手?(最优化/训练技巧篇)

地址:http://www.shwmhw.com/shxw/60576.html