本篇文章2555字,读完约6分钟
雷锋。本文作者凯泽是金略奇志的总经理。原文在集智。和雷锋。com已被授权。
在过拟合/欠拟合之前,介绍了卷积提取边缘特征的基本原理,但是从图片中识别胸罩是远远不够的,因为不是所有的胸罩都像柏木由纪的那样简单,但是有很多不同的款式,不能仅仅从边缘识别。
为了提取这样复杂的特征,需要许多不同的卷积核。对于一个聪明的女人来说,没有米饭是很难烹饪的,没有足够的训练样本,即使是最好的卷积也无法出来。当然,训练样本越多越好。俗话说:“如果你熟悉300个胸罩模型,即使你不能解开它们,你也可以穿上它们。”虽然人工神经网络没有真正的个性,但有一点是一样的,那就是“贪婪”。
然而,无论训练样本的积累还是计算能力的上限,资源总是有限的。因此,我们只能从有限的样本中提取少量的特征,这是一个寻求无限的过程。
训练样本不足会导致一个问题,这就是所谓的“罕见和奇怪”。例如,当我们看上面图片中的胸罩时,大多数都有肩带,所以自然地,神经网络会把“肩带”作为一个特征。
如果一个物体没有类似于肩带的结构,被识别为胸罩的可能性就会降低。
引入过多不必要的特征会导致模型泛化能力下降,称为“过拟合”。例如,在下图中,坐标上有10个点,蓝色拟合曲线一条接一条地穿过,看起来像是完美的拟合。看来我们已经看透了这个分配规律的本质。
但是如果有第11点,它真的会继续落在蓝线上吗?此外,如果没有,拟合曲线将受到严重威胁,需要进行很大的调整,以满足“通过所有点”的要求。如果有第12点呢?
这种过度拟合的预测对新数据的影响有限。事实上,更安全的拟合是一个线性关系,所以我们可以非常有信心地预测,第11个和未来的数据将下降到蓝色直线附近。
过度拟合就像多年来记忆考试问题(包括所有的数字),但是一旦你看到新问题(数字已经改变),就不会这么做了。从前有一个傻瓜在卖咸鸭蛋的草图,其中一个傻瓜说:“五毛钱,一元不卖”,这是一个进入“五毛钱”角落的笑话。过度拟合神经网络,就像一个相信死亡的人,实际上是愚蠢的。
幸运的是,人工智能还没有发展出形态,否则,恐怕会有三种毒药:贪婪、愤怒和妄想。我想,如果有一天,机器人也会发展宗教。
另一方面,它被称为“不适应”,也就是说,如果你不学习真正的法律,听风就是雨。例如,在下图中把眼罩作为胸罩的悲剧中,买家没有把“肩带”作为一个特征,而且“形状”有点相似,但她忽略了最基本的“尺寸”因素。
在实际应用中,“过拟合”是一个比较常见的问题。
如何通过起飞来抑制过度装配?有许多方法,例如,l1、l2正则化是基于代价函数的。
本文将介绍的方法称为脱落法。其初衷是辍学,而原文基本上保存在中文资料中。“脱”是我自己翻译的。你问我怎么想,但我不知道。我就是控制不了我的手。
辍学不修改成本函数,但直接调整神经网络的结构,这是一个更彻底的革命。
人工神经元都与特征有关,而一些特征(如肩带)会导致过度贴合。所以只要你取下对应于肩带的神经元,你能避开它们吗?
原则就是这样一个原则,但是我们不知道哪些神经元对应于哪些特征。如果我们都知道,我们不需要训练,直接解决就行了。
考虑以下简单的神经网络,其隐藏层(中间层)有6个神经元。神经元和特征不是一一对应的,但是三个神经元可以一起代表一个特征,例如从顶部开始的第二个、第三个和第五个。假设我们扔掉这三个神经元,用网络的其余部分来计算,我们可以在一定程度上减少过拟合。
事实上,[2,3,5]这只是一个猜测。我们要做的是把所有可以去掉的3个神经元组合去掉,分别计算其余的,最后取平均值。诚然,每个不完整的神经网络都有可能过拟合,但它们的过拟合情况不同,可以通过平均来抵消。
从本质上讲,辍学消除了神经网络对某些神经元的依赖。六个神经元中有三个脱落,脱落率为0.5。
练习是测试杯子的唯一标准,但是对于初学者来说直接处理彩色图片还是很困难的,而且这个网站的计算能力暂时还是有限的。因此,本文以手写数字识别项目为例,构建了一个简单的卷积神经网络,并比较了丢包的影响。
这个项目是kaggle的入门级比赛,使用了著名的mnist手写数字数据集。在深度学习领域,Mnist可谓是你好的世界。
首先,使用神经网络模型导入和预处理依赖库和数据集。
这是静态代码显示。在线编辑->运行python代码并构建神经网络。请访问链接。
然后建立和训练模型。这里采用最简单的卷积神经网络结构:
卷积层(8个5x5卷积核,relu激活函数)
池层(最大2x2池)
全连接层(16个神经元,relu激活功能)
输出层(10个神经元,softmax激活功能)
为了节省计算开销和减少等待时间,训练的迭代次数被设置为1,因此所获得的结果的参数当然较低,这对于所使用的方法来说不是问题。
无脱落,验证精度为0.6090
为了进行比较,我们构建了另一个具有相似结构但包括脱落层的神经网络。压差位于最大池层之后,全连接层之前。
把空留在这里。请访问链接完成在线练习。
如果压差添加正确,验证精度(val_acc)应为0.7390。而其他指标,如训练准确度(acc),大致相同。因此,剔除的作用是消除过度拟合,提高模型的泛化能力。
附言。如果你想把这篇文章与bgm相匹配,我希望它是亚历杭德罗德尔非诺的起飞。
雷锋。com相关阅读:
张量流&神经网络算法高级应用类即将开始!
从初级到高级,理论+实战,一站式深入了解张量流!
本课程面向深入学习的开发人员,教授如何使用张量流解决特定问题,如图像识别和文本分析。为期10周的课程将从张量流的原理和基本实践技能开始,逐步教会学生如何在张量流上构建cnn、自编码、rnn、gan等模型,最终掌握一套基于张量流的深度学习和发展的专业技能。
作为思想工作的高级技术专家,童达和白华川两位教师在构建大数据平台和开发深度学习系统方面有着丰富的经验。
时间:每周二和周四晚上20: 00到21: 00
课程时长:共20小时,10周完成,每周2次,每次1小时
在线教学地址:mooc.ai/
雷锋。(公开号码:雷锋。相关阅读:
基于弱监督学习的神经网络在图像分割中的应用
读完这篇文章,我了解了深度卷积神经网络在目标检测方面的进展
雷锋文章版权所有。严禁擅自转载。详情请参考转载说明。
来源:搜狐微门户
标题:禅与奶罩识别艺术(下)
地址:http://www.shwmhw.com/shxw/63193.html