Valse 2017-搜狐微门户

本篇文章3914字，读完约10分钟

雷锋。2017年4月21-23日，视觉与学习领域的青年学者研讨会在厦门举行。国内cv领域顶尖专家学者汇聚一堂，2000多名青年学者出席了会议。在威士伯的《年度进展回顾》中，共有12位学者轮流上台，对近年来cv研究和应用分支的发展进行了详细而系统的回顾，可谓“12枚重磅炸弹”。针对近几年来简历领域研究的热点方向之一，哈尔滨工业大学计算机学院教授左从多个方面做了详细的综述报告。

Valse 2017

左，哈尔滨工业大学计算机科学学院教授，博士生导师。主要从事图像增强与恢复、距离测量学习、目标跟踪、图像和视频分类等。他在顶级会议上发表了50多篇论文，如cvpr/iccv/eccv以及t-pami、ijcv和ieee trans等期刊。

以下是报告全文，感谢左王猛教授的修改和更正，并由雷锋同志编辑。

生成对抗网络是近一年来备受关注的一个方向，其内容相当复杂。然后我选择了以下几个角度来总结近几年来赣语的发展。i

图像制作

关于gan有三个问题:测量复杂分布之间的差异，如何设计发生器，以及建立输入和输出之间的联系。

图像生成在这里，我尝试给出“图像生成”的一般定义:图像生成的目的是学习一个生成模型，它可以将输入分布的图像或变量转换成输出图像。这里，我们不仅需要“输入”来满足输入分布，还需要“输出”来满足期望分布。通过定义不同的输入分布和期望分布，它对应于不同的图像生成问题。

首先，gan最标准的假设是输入应该服从随机噪声分布，并且期望分布都是真实图像。这个问题起初被定义得太多，所以尽管gan在2014年出现，但在2014年至2016年间并没有迅速发展。

后来，我们认为输入的分布可能不是随机的，所以我们开始根据各种实际问题的需要来定义所需的输入分布和期望分布。例如，输入分布可以是所有斑马的图像，输出分布是所有正常马的图像，因此系统需要学习的实际上是这两个图像之间的映射。

同样，如果我们输入低分辨率图像并输出高分辨率图像，我们希望系统将学习低分辨率和高分辨率之间的映射。去块，输入是jpeg压缩图像，输出是真实高清图像。我们还想了解它们之间的映射。人脸领域也是如此，比如超分辨率和性别转换。输入是男性形象，输出是女性形象。学习它们之间的映射。

另一个有趣的事情是图像字幕的自动生成，其中图像被输入，句子被输出。每个人过去都认为这是一对一的映射，但事实并非如此。这实际上是一对多的映射。当不同的人描述一幅画时，他们会产生不同的句子。因此，用gan做这个应该很有趣。今年，iccv上的几篇文章完成了这项工作。

关于gan的三个问题:首先，测量复杂分布之间的差异。我们希望输出分布达到期望的分布，因此我们需要找到一种方法来测量两种分布之间的差异，这是我认为需要在gan中研究的第一个关键问题。

第二，如何设计发电机。如果我们想学习映射，我们需要一个生成器，所以我们应该设计它的训练和学习习惯。这是可以在gan中研究的另一个角度。

第三，连接输入和输出。对于下图右侧的性别转换示例，输入是男性图像，输出是女性图像。显然，我们需要的不是从输入到任何女性面部图像的映射，而是输出的女性图像应该尽可能与输入的男性图像相似，这样这种转换才有意义。因此，这是gan的另一个重要研究方向，即如何连接输入和输出。

以下是对这三个问题的详细解释。

如何测量两个分布之间的差异gan使用一个分类器来测量输出分布和预期分布之间的差异。实际上，torralba和efros也在2011年考虑使用一个分类器来分析这两个分布之间的差异，这也是当时从事领域适应的学者们喜欢引用的一篇论文。他们设计了一个实验，给你三张图片，这样你就可以从12个数据集(包括imagenet、coco和pascal voc等)中猜出哪一个。)。如果这是一个随机的猜测，很明显，正确的概率是1/12。然而，人们猜测的准确率往往可以达到30%左右，这表明不同数据集所描述的分布是不一致的。在这里，人们实际上可以被视为一个分类器，通过判断样本来自哪个数据集来分析两个分布之间的差异。

Valse 2017

尽管2014年NIPS的gan论文没有引用torralba的工作，但它实际上使用了一个鉴别器来测量两个分布之间的差异。基本过程是固定发生器以获得最佳鉴别器，然后固定鉴别器以学习最佳发生器。但是还有一个最令人担忧的问题，那就是，如果我们学习一个非常复杂的分布，就会出现模式崩溃的问题，也就是说，我们不能学习复杂分布的全部情况，而只能学习其中的一部分。

Valse 2017

对此，最早的解决方案是调整发生器(G)和鉴别器(D)的优化顺序，但这不是最终的解决方案。从去年开始，人们开始注意寻找最终的解决方案。

在此之前，每个人如何解决这个问题？机器学习中常用的方法是:使用最大平均差异(mmd)。

如果两个分布是相同的，那么两个分布的数学期望显然应该是相同的；然而，如果两个分布的数学期望相同，则不能保证两个分布相同。因此，我们需要更好地建立“同分布”和“同期望”之间的联系。幸运的是，我们可以对来自两个分布的变量应用相同的非线性变换。如果两个分布的数学期望在所有非线性变换下是相同的(即，两个分布的期望之间的最大差是0)，则可以保证两个分布在统计上是相同的。不幸的是，这种方法需要我们遍历所有的非线性变换，从实用的角度来看，这似乎有些困难。首先，在机器学习领域，人们倾向于使用线性核或高斯径向基函数核进行非线性变换，然后开始使用多核。从去年开始，人们开始使用cnn来近似所有的非线性变换，并在mmd框架下生成图像。首先，固定发生器并最大化mmd，然后在鉴别器中固定mmd的F，然后通过最小化mmd更新发生器。

Valse 2017

最常用的方法之一是用mmd代替鉴别器来学习cnn，这是icml 2015的一篇文章中尝试过的方法，我们在此基础上做了一些工作。

但事实上，如果你直接用mmd替换发电机，会有一定的效果，但不是特别成功。因此，从2016年nips开始，一个改进的gan出现了。虽然这项工作没有引用mmd论文，但它实际上更新了鉴别器并最小化了mmd。当瓦瑟斯坦甘到达时，它清楚地解释了瓦瑟斯坦甘和mmd之间的关系。虽然论文写了一个“负”关系，但我们应该在其代码中添加一个范数，因为仅仅最大化或最小化两个分布的期望并不能保证最小程度的分布微分。

Valse 2017

随后，iclr 2017年的一篇论文也明确指出，mmd应该作为gan网络的停止条件和学习效果的评价方法。

如何设计发电机相对容易。早期，gan最大的进步之一是dcgan。当用于图像生成时，更合适的选择是使用全卷积网络和批量归一化。

对于复杂的图像生成，可以使用分阶段的方法。例如，第一步是生成小图片，然后从小图片生成大图片。在这方面，香港中文大学的王晓刚先生和康乃尔大学的约翰·霍普克罗夫特先生做了一些工作。

对于一些与图像增强相关的任务，包括超分辨率和人脸属性转换，目前在监管下表现最好的网络是resnet，所以在这些任务中使用gan时，通常采用resnet结构。

类似地，对于图像翻译，基本上使用u-net结构。在基于引导图像进行引导人脸完成时，也采用了U-net结构。

对于图像文本描述的自动生成，显然应该采用cnn+rnn的网络结构。总之，一个好的建议是根据任务的特点和前人的经验来设计发电机网络。

自2016年nips以来，如何连接输入和输出，如何通过连接输入和输出来提高gan的可学习性越来越受到关注，这也是我非常感兴趣的一个方向。一个早期的工作是infogan，它由两部分组成:C(隐藏变量)和Z(噪声)。infogan生成图像后，不仅要求生成的图像难以与真实图像区分开来，还要求能够从生成的图像中预测出C，从而建立输入和输出之间的联系。

Valse 2017

此外，对于某些任务，例如超分辨率，我们可以使用感知损失来建立输入和输出之间的联系。

当我们转换面部属性时，我们发现现有的感知损失通常是基于现有的网络定义的。我们想知道是否可以将感知损失网络和鉴别器结合起来，所以我们提出了一种自适应感知损失。结果表明，自适应感知损失具有更好的适应性，能够更好地建立输入和输出之间的联系，显著提高生成图片的视觉效果。

当输入和输出都已知时(如图像超分辨率和图像转换)，我应该用什么方式连接输入和输出？在过去，我们使用感知损失来连接，但现在一个更好的方法是使用条件gan。假设有一个正对(输入图像和背景图像)和一个负对(输入图像和生成图像)，鉴别器不区分两个图像，而是区分两个“对”。这样，输入自然地被引入鉴别器。

在此基础上，我们还考虑了当有一些额外的指导时，如何更好地建立输入和输出之间的联系。

如上所述，有条件的gan是更好的监督选择。然而，如果你在不匹配的情况下进行图像转换，如何建立输入和输出之间的联系？谭平老师和他的小组以及efros小组今年已经完成了这项工作。事实上，去年在cvpr2017上提交的一篇论文也做了类似的工作。正如我们所知，由于它是公共关系，原则上，在培训阶段的投入和产出不能直接联系起来。此时，他们采用周期一致的方法。y可以从x预测和生成，然后x可以从y再生，所以y生成的x可以与输入x连接。这样，我们实际上隐式地建立了从x到y的连接

Valse 2017

总之，如果你对gan的理论和模型感兴趣，你可以测量输出分布和期望分布之间的差异。如果您关心gan的应用，您可以通过设计生成器并建立输入和输出之间的连接来解决您感兴趣的问题。那基本上是我的报告。谢谢你。

更多雷锋网(公开号:雷锋网)文章:

Cmu提出了一种新的内部驱动学习方法，它在复杂计算中比强化学习更有效

雷锋原创文章。严禁擅自转载。详情请参考转载说明。

来源：搜狐微门户

标题：Valse 2017

地址：http://www.shwmhw.com/shxw/60586.html

Valse 2017

相关推荐

红魔5G游戏手机LPDDR5稳了 16GB运存呼声竟不那么高

展厅设计的技巧有哪些

要强化AI技术？Twitter任命人工智能专家李飞飞为独立董事

乌龟孵化

平安好医生纳入港股通上半年用户达4860万

三星手机兴衰史：从市场第一到败走中国、从离婚大戏到监狱风云

汽车B2B电商恭喜发车全年交易额突破300亿

看清“AI算命”的“算钱”真面目（人民时评）

一级建造师实务复习建议-题王网tiw.cn

深圳地铁“扫码过闸”正式上线：马化腾亲身示范

本月热文

阿里云账号代购，阿里云购买相同配置的实例

挑选太仓SMT智能料架公司，绝不踩雷的方法！_佰斯特POUSTO

win10全屏优化会让游戏卡吗_win10全屏优化会让游戏卡吗

阿里云国际服务器购买，阿里云国际代理商

国际版阿里云/腾讯云：免费账号：运用邮箱注册的账号、充值教程

加盟儿童美术教育的投资人要符合哪些条件呢

win10优化开机启动项_win10如何优化开机启动项

win7运行速度提高90pedit_

win10自带清理软件_win10清理软件哪个好

阿里云国际账号24h自助充，阿里云服务器购买

最新发布

wf展会2022上海_wf展会2022上海延期

ween是什么牌子_ween是什么牌子衣服

ween是什么公司_WeEn是什么公司

电厂工地洗车机是如何进行水循环使用的？

web问如何优化网站_web网页优化

保持防静电贯通式货架高效安全的秘诀_佰斯特POUSTO

阿里云服务器购买，阿里云账号免实名注册

阿里云国际服务器购买，阿里云免实名注册

阿里云国际账号免实名注册，阿里云服务器购买

阿里云国际账号注册，阿里云服务器购买，阿里云24h小时自助充

网站简介