本篇文章3001字,读完约8分钟
近年来,基于深度学习的图像分割技术一般依赖于卷积神经网络cnn的训练,在训练过程中需要大量的标记图像,也就是说,在训练图像中一般需要准确的分割结果。
对于图像分割,很难得到大量完全标记的图像。例如,在imagenet数据集上,有1400万个带有类别标签的图像,500,000个带有边界框的图像,但只有4,460个图像具有像素级分割结果。标记训练图像中的每个像素非常耗时,特别是对于医学图像,在3D ct或mri图像中标记组织需要几个小时。
如果学习算法能够通过学习一些初始标注的数据集来达到良好的分割效果,那么训练数据的标注过程就非常简单,可以大大减少标注训练数据所花费的时间。这些初始标记可以是:
1.只给出图像中包含的对象;
2.给出一个对象的边界框;
3.在图像中的目标区域标记一些像素,例如画一些线条、涂鸦等。
1.scribblesup:用于语义分割的scribble监督卷积网络(cvpr 2016)
香港中文大学的林迪提出了一种基于涂鸦标记的弱监督学习方法。涂写是一种方便的标记方法,因此被广泛使用。如下图所示,你只需要画五条线来标记一个图像。
Scribblesup分为两个步骤。第一步是将像素的类别信息从涂鸦扩展到其他未标记的像素,并自动完成所有训练图像的标记;第二步是用这些标记的图片训练cnn。在第一步,这个方法创建超级像素,然后基于图割标记所有的超级像素。
图割的能量函数是:
在这个图中,每个超级像素都是图中的一个节点,相邻的超级像素之间有一条连通的边。这个能量函数中的一元项包括两种情况,一种来自涂鸦,另一种来自cnn对超级像素的预测概率。整个优化过程实际上是寻找图割能量函数和cnn参数的联合最优值的过程:
上述公式的优化是通过交替求和最优值来实现的。本文发现通过三次迭代可以得到更好的结果。
2.弱监督分割的约束卷积神经网络(iccv 2015)
加州大学伯克利分校的Deepak pathak使用带有图像级标记的训练数据进行弱监督学习。在训练数据中,仅给出包含在图像中的某个对象,但是其位置信息和包含的像素信息不可用。本文提出的方法将图像标签转化为有线电视网络输出标签分布的约束条件,称为约束卷积神经网络(ccnn)。
该方法将训练过程视为具有线性约束的优化过程:
这是一个隐含的类别分布,由美国有线电视新闻网预测。目标函数是kl散度最小化。线性约束来自训练数据上的标记,例如图像中前景像素的期望数量的上限或下限(对象大小),并且图像中某个类别的像素数量是0或至少1。目标函数可以转化为损失函数,然后由sgd进行训练。
在实验中,发现仅使用图像标签作为限制条件所获得的分割结果仍然相对较差。从pascal voc 2012测试数据集获得的miou为35.6%,加入对象大小的约束条件后,miou可达45.1%,如果使用包围盒作为约束条件,miou可达54%。Fcn-8s可以达到62.2%,这表明在弱监督学习中仍然很难取得好的效果。
3.用于语义图像分割的dcnn的弱监督和半监督学习
谷歌的乔治帕潘德里欧和加州大学洛杉矶分校的陈良杰在deeplab的基础上进一步研究了使用包围盒和图像级标签作为标签的训练数据。期望值最大化算法(em)用于估计未标记像素的类别和cnn参数。
对于图像级标记的数据,我们可以观察图像的像素值和图像级的标记,但是我们不知道每个像素的标签,所以我们把它作为一个隐藏变量。使用以下概率图模式:
用em算法估计和。e步是固定的期望值,m步是使用sgd计算θ的固定值。
对于由包围盒标记的训练图像,该方法利用crf自动分割训练图像,然后在分割的基础上进行完全监督学习。实验表明,仅使用图像级标记分割效果较差,但使用包围盒训练数据可以获得较好的分割效果,在voc2012测试数据集上可以获得62.2%的miou。此外,如果将少量的完全标记图像和大量的弱标记图像相结合,可以获得接近完全监督学习(70.3%)的分割结果(69.0%)。
4.学会在各种形式的弱监管下进行细分(cvpr 2015)
威斯康星大学的徐佳提出了一个统一的框架来处理不同类型的弱标记:图像级标记、包围盒和部分像素标记,如涂鸦。该方法将所有训练图像划分为超像素,并从每个超像素中提取维度特征向量。因为不知道每个超像素的类别相当于无监督学习,所以该方法对所有超像素进行聚类,并使用最大边缘聚类。该过程的优化目标函数是:
有一个特征矩阵,每一列代表该类别的聚类特征。是将超级像素分成类的代价。在此目标函数的基础上,可以根据不同的弱标记方法给出不同的约束条件,因此这种方法是在相应的约束条件下寻找最大区间聚类。
该方法在siftflow数据集上取得了较好的效果,比现有技术提高了10%以上。
摘要:基于弱标记数据集的训练图像分割算法可以减少对大量全标记数据的依赖,更适合大多数应用的实际情况。弱标记可以是图像级标记、边界和部分像素标记等。训练方法通常被认为是有限条件下的优化方法。此外,em算法可用于联合优化有线电视新闻网参数和像素类别。
参考
1.林迪、戴季峰、贾亚佳、明凯和孙坚。“scribblesup:用于语义分割的scribble监督卷积网络”。ieee计算机视觉和模式识别会议(cvpr),2016
2.pathak,deepak,philipp krahenbuhl和trevor darrell。"用于弱监督分割的约束卷积神经网络."ieee计算机视觉国际会议论文集。2015.
3.用于语义图像分割的dcnn的弱监督和半监督学习arxiv预印本arxiv:1502.02734 (2015)。
4.徐、贾、亚历山大·g·施荣和拉奎尔·厄塔松。“学会在各种形式的弱监管下进行细分。”ieee计算机视觉和模式识别会议录。2015.
雷锋。(公开号码:雷锋。出版社:原作者泰格夫。这篇文章最初发表在作者的智虎专栏。
近日,雷研究会荣幸地邀请到了两位老师,思想工作者佟达和白发川,他们将在mooc.ai平台上推出一系列的培训课程“张量流动与神经网络算法的高级应用”。有兴趣的朋友一定不要错过!
思想工厂
讲师thinkworks是世界领先的it咨询公司,也是联合国妇女儿童组织和世界卫生组织的合作伙伴。总部设在芝加哥,在全球15个国家设有42个办事处。
2012年,think works排名在谷歌和facebook之前,被评为世界上最难面试的公司。
2016年,思维工场荣获“女性科技人员最佳雇主”奖。
培训课程介绍
从初级到高级,理论+实战,一站式深入了解张量流!
本课程面向深度学习型开发人员,教授如何使用张量流解决特定问题,如图像识别和文本分析。为期10周的课程将从张量流的原理和基本实践技能开始,逐步教会学生如何在张量流上构建cnn、自编码、rnn、gan等模型,最终掌握一套基于张量流的深度学习和发展的专业技能。
作为思想工作的高级技术专家,童达和白华川两位教师在构建大数据平台和开发深度学习系统方面有着丰富的经验。
开始时间:每周二和周四晚上20: 00到21: 00
课程时长:共20小时,10周完成,每周两次,每节课1小时。
地址:mooc.ai/course/82
现场教学正在进行中,欢迎加入!
雷锋文章版权所有。严禁擅自转载。详情请参考转载说明。
来源:搜狐微门户
标题:CNN 在基于弱监督学习的图像分割中的应用
地址:http://www.shwmhw.com/shxw/60497.html