本篇文章4842字,读完约12分钟
Cnn不仅仅是处理分类问题。
在这篇文章中,我们将看看美国有线电视新闻网在图像实例分割领域的发展历史:如何使用它来获得惊人的结果。
据雷锋说。2012年,亚历克斯·克里热夫斯基(Alex Krizhevsky)、杰夫·辛顿(Geoff Hinton)和伊利亚·苏斯克弗(Ilya Sutskever)赢得了“影像网挑战赛”(imagenet Challenge),这是cnn发展史上的一个里程碑。从那以后,cnn成为了图像分类的黄金标准,其性能也在不断提高。现在,在imagenet挑战赛中,它已经变成了超人。
自2015年以来,cnn在imagenet中的错误率一直低于人类
虽然这很令人兴奋,但图像识别比人类高度复杂多样的视觉理解系统要简单得多。
在图像识别的任务中,通常只有一个物体在图像的中心被识别,任务是判断图像是什么。但是当我们用眼睛观察周围的世界时,我们正在从事更复杂的任务。
我们眼睛的视野非常复杂,有许多重叠和遮挡的不同背景的物体;我们的大脑不仅对这些物体进行分类,还能识别它们的边缘轮廓、差异以及它们之间的关系。
问题是:美国有线电视新闻网“持有”这样一个复杂的任务吗?换句话说,给定一个非常复杂的图像,我们能使用cnn来识别不同的物体和它们的边缘轮廓吗?正如ross girshick和他的同事近年来所展示的,这是完全可以实现的。
本文将讨论基于cnn的主流对象检测和分割技术背后的直觉思维,并看看它们是如何从一种执行模式发展到另一种执行模式的。其中,我们将涉及诸如r-cnn(地区cnn)、这类问题的原始cnn解决方案、快速r-cnn和快速r-cnn等主题。在本文的最后,我们将讨论facebook研究团队最近开发的mask r-cnn,它扩展了对象检测技术,提供像素级分割。
这是本文涉及的论文:
r-cnn: arxiv/abs/1311.2524
快速r-cnn: arxiv/abs/1504.08083
快速r-cnn: arxiv/abs/1506.01497
mask r-cnn: arxiv/abs/1703.06870
2014年:r-cnn
R-cnn是cnn在目标检测中的早期应用。
受深度学习之父杰弗里·辛顿的启发,由加州伯克利大学教授吉登德拉·马利克领导的一个小组今天提出了一个不可回避的问题:
krizhevsky等人。艾尔的研究成果可以推广到物体识别?
顾名思义,物体识别就是在图像中找到不同的物体并对它们进行分类(如上图所示)。该团队,包括罗斯吉尔希克,杰夫多纳休和特雷弗达雷尔,发现这个问题可以通过测试帕斯卡voc挑战和使用克里热夫斯基的结果来解决。Pascal voc是一个与imagenet类似的流行的对象识别挑战。
他们写道:
本文首次表明,与其他基于hog特征的简单系统相比,cnn在基于pascal voc的目标识别方面具有优越的性能。
现在,让我们来看看他们的架构是如何工作的。
请理解,r-cnnr-cnn的目标是导入图片,并通过方框正确识别图片中主要对象的位置。
输入:图像
输出:每个对象的方框+标签
但是你怎么知道这些盒子应该在哪里?美国有线电视新闻网处理它的方式与我们的直观方式非常相似--在图像中创建许多框,看看它们是否与一个对象重叠。
为了生成这些帧,或者说推荐的局部区域,r-cnn采用了一种叫做选择性搜索的过程。在高层次上,选择性搜索(如上图)通过不同大小的窗口查看图像。对于每个尺寸,它根据纹理、颜色或密度将相邻像素分类成一个组,以便进行对象识别。
如上所示,在帧方案生成之后,r-cnn将所选区域转换为标准正方形,并将其输入到Alex Net的改进版本(ImageNet 2012的冠军方案,它启发了r-cnn)。
在cnn的最后一层,r-cnn增加了一个支持向量机,它的任务很简单:分类它是否是一个对象,如果是,它是什么对象。这是上图中的第四步。
改进边框现在,既然我们已经在盒子里找到了对象,我们可以减少边框,使其更符合对象的三维尺寸吗?答案是肯定的,这是r-cnn的最后一步。美国有线电视新闻网运行一个简单的线性返回在推荐的地区,以产生更紧密的帧坐标,以获得最终结果。
这是退货模型的输入和输出:
输入:对应对象的图像子区域
输出:该对象的新框架系统
总而言之,r-cnn只不过是以下几个步骤:
为边框生成建议
在预先训练好的alexnet上运行盒子里的对象。使用支持向量机来查看框架中的对象是什么。
在线性返回模型上运行框架,并在对象分类后输出更紧密框架的坐标。
2015年:快速r-cnn
它加速和简化了r-cnn。
R-cnn运行得很好,但是由于几个原因,它运行得非常慢:
对于每张图片的每个推荐区域,都需要一个cnn (alexnet)转发。这意味着每个图像需要大约2000次向前传递。
它必须训练三种不同的模型——生成图像特征的cnn模型、预测类别的分类器模型和收紧边界的Return模型。这使得装配线的培训特别困难。
2015年,r-cnn的第一作者ross girshick解决了上述两个问题,这导致了这个短暂历史中第二个算法的诞生:快速r-cnn
ross girshick
快速r-cnn 1的特点。roi(感兴趣区域)池
对于cnn的转发,girshick意识到,对于每一张图片,许多推荐的区域将不可避免地重叠,并且相同的cnn操作将被重复一遍又一遍(大约2000次)。他的想法很简单:为什么你不能在每张图片上只运行一次cnn,并找到一种在2000条推荐中共享计算的方法?
在一项名为roipool的技术的帮助下,fast r-cnn实现了这个想法。其核心是,roipool将分享美国有线电视新闻网的所有图像子区域的转发通行证。上图是一个例子。注意每个区域的cnn特征是如何通过选择cnn特征图的对应区域获得的。然后,每个区域的特征被汇集(“汇集”,通常使用最大汇集)。因此,原始图像只需要计算一次,而不是2000次。
2.将不同的模型集成到网络中
第二个特点是在一个模型中联合训练cnn、分类器和框架Return。以前,cnn用于图像特征提取,支持向量机用于分类,Return用于帧收紧。快速r-cnn使用一个单一的网络来完成这三项任务。
至于这是如何实现的,请见上图。快速r-cnn增加了一个软最大层输出分类到cnn而不是支持向量机。添加一个平行于软最大值的线性返回层,以输出帧坐标。这样,所有需要的输出都由单个神经网络获得。这是整个模型的输入和输出:
输入:带有区域推荐的图像
输出:每个区域的对象识别,收紧边界
2016年:美国有线电视新闻网的名字直截了当,这加速了选民的推荐。
尽管有上述优势,快速r-cnn仍然有一个主要的瓶颈:选民推荐。正如我们所看到的,检测一个物体位置的第一步是生成一系列用于测试的候选帧。雷锋。(公开号码:雷锋。com)了解到这些推荐是由fast r-cnn的选择性搜索生成的。后者是一个相当缓慢的过程,成为整个系统的瓶颈。
2015年,微软的、任·、何·和罗斯·吉尔希克找到了一种使推荐步骤几乎免费的方法,这是通过他们称之为更快的r-cnn的架构实现的。
孙健
更快的美国有线电视新闻网背后的理念是:既然选区推荐取决于美国有线电视新闻网向前传递计算的图像特征,为什么不把这些美国有线电视新闻网的结果用于区域推荐,而不是运行一个单独的选择性搜索算法呢?
这就是为什么更快的r-cnn更快。
在上图中,你可以看到一个有线电视新闻网是如何同时推荐和分类选区的。这样,只需要培训一个有线电视新闻网,我们几乎可以获得免费的选民推荐。作者写道:
“我们的观察结果是,基于区域的检测器(如更快的r-cnn)使用的卷积特征图也可用于生成选区推荐。”
这是模型的输入和输出:
输入:图像(选择推荐不需要)
输出:分类,图形中对象的框架坐标。
选民是如何产生的?让我们再花几分钟时间一起看看r-cnn如何更快地从cnn专题中产生选民推荐。更快的r-有线电视新闻网增加了一个完全卷积网络有线电视新闻网的特点,以产生一个区域建议网络。
区域建议网络通过在美国有线电视新闻网特征地图上通过滑动窗口来操作,并在每个窗口中输出k个潜在帧和每个帧的评估分数。这些k线代表什么?
凭直觉,我们知道图像中的物体应该符合某些常见的长宽比和尺寸,例如类似人体形状的矩形框。同样,我们知道没有太多的窄盒子。因此,我们创建锚框——k个共同的长宽比,并且对于每个锚框,我们输出选择框和图像中每个位置的分数。
有了这些定位框,让我们来看看区域建议网络的输入和输出。
输入:美国有线电视新闻网特征地图
输出:每个锚点对应一个复选框。用于指示所选框中的图像是否为对象的分数。
然后,每一个可能的对象框都被导入到fast r-cnn中,以生成分类和紧缩的框。
2017年:蒙版r-cnn将更快的r-cnn扩展到像素级图像分割。
到目前为止,我们已经看到了许多有趣的方法,通过使用有线电视新闻网的功能和盒子选择来锁定图像中的不同对象。我们能进一步利用这些技术来定位物体的每个像素吗?
问题是图像分割。在这方面,研究人员,如何和吉士克的脸谱人工智能开发了一个架构,称为面具r-cnn。
像快速r-cnn和快速r-cnn一样,屏蔽r-cnn的基本逻辑也非常直接:快速r-cnn对目标识别有很好的效果,我们可以将其扩展到像素级分割。
蒙版r-cnn通过向更快的r-cnn添加一个分支来实现这一点,它输出一个二进制蒙版来指示像素是否是对象的一部分。这个分支(图中的白色部分)是cnn特征图上的一个全卷积网络。这是它的输入和输出:
输入:美国有线电视新闻网特征地图
输出:矩阵,其中属于对象的像素用1表示,否则用0表示(这是二进制掩码)。
为了让mask r-cnn像预期的那样运行,作者做了一个小小的改变:滚动对齐,或者重新排列滚动池。
roialign
当在未经修改的更快的r-cnn的原始版本中运行时,roipool选择的要素地图区域将与原始地图中的区域略有不同。图像分割需要像素级精度。因此,作者巧妙地调整了roipool,使其对齐更加准确,这就是所谓的roialign。
假设我们有一个128x128的图像和一个25x25的要素图。如果我们想找到与原始图像左上角15x15对应的特征区域,我们如何在特征图上选择像素?
我们知道原始图像的每个像素对应于特征图上的25/128像素。为了在原始图像中选择15个像素,我们需要在特征图中选择15 * 25/128 ~= 2.93个像素。
在这种情况下,roipool会以分数为代价选择两个像素,从而导致排列问题。然而,在roialign中,避免了小数点后删除数字的方法,并且使用双线性插值来精确地获得2.93像素的信息。在高层次上,这避免了错位。
生成蒙版后,蒙版r-cnn将它们与更快的r-cnn的分类和方框选择相结合,以生成相当精确的分割:
仅在三年时间里,我们就从krizhevsky等人的最初成果中看到了机器学习社区的进步。al到r-cnn,并最终开发了一个强大的计划,如面具r-cnn。单看它,mask r-cnn就像一个巨大的技术飞跃,很难与之相比。但在这段短暂的历史中,我希望每个人都能看到,这种进步是一系列直观的、渐进的进步的总和,是多年艰苦合作研究的结果。
但是从美国有线电视新闻网到屏蔽美国有线电视新闻网只花了三年时间。在未来的三年里,计算机视觉会提高多少?
《Viaathelas》,雷锋编。
相关文章:
Facebook的最新论文:mask r-cnn案例分割总体框架,检测、分割和特征点定位可以一次完成(多张图片)
美国有线电视新闻网深度学习四大经典技术分析
雷锋文章版权所有。严禁擅自转载。详情请参考转载说明。
来源:搜狐微门户
标题:三年来 CNN在图像分割领域经历了怎样的技术变革?
地址:http://www.shwmhw.com/shxw/60439.html