本篇文章2804字,读完约7分钟
雷技术评论:无监督学习可以说是深度学习的未来。本文的第一作者周廷辉是加州大学伯克利分校电气工程与计算机科学学院的博士生,由教授alexei(alyosha)efros指导。在这篇论文中,他与谷歌的马修·布朗、诺亚·斯纳弗利和大卫·劳合作,这篇论文被选为cvpr 2017的口头报告。以下是根据论文内容对雷(公开号:雷)的《人工智能科技评论》进行的部分编辑。
摘要
为了判断非结构化视频序列中单个镜像和摄像机运动的深度,提出了一种无监督学习框架。我们使用端到端视图合成的学习方法作为信号监控。与以前的工作相比,我们的方法是完全无监督的,只需要对单反视频序列进行训练。我们的方法使用单视图深度和多视图姿态网络,并基于目标附近视图的扭曲损失来计算深度和姿态。通过在过程中训练损耗,网络被连接,但是它可以在测试期间独立应用。基于kitti数据集的实验评价也证明了该方法的有效性。1)使用深度训练或地面实况的单镜深度呈现和监督方法之间的比较。2)在可比较的输入设置下,将姿势判断的性能与已建立的slam系统进行比较。
论文概述
人类有能力在短时间内判断场景中的自我运动和三维结构。例如,当我们过马路时,我们可以很容易地识别障碍物,并迅速做出反应绕过它们。多年来对计算机几何视觉的研究并没有达到相似的建模能力来再现真实世界的场景。
为什么人类在这项任务中有优势?一个假设是,通过我们过去的视觉经验,我们已经形成了一个丰富的、结构化的理解。大量的场景被仔细观察和移动,我们在开发中找到一致的模型。通过数百万次这样的发现,我们认识到了世界的规律性——道路是平坦的,建筑物是直立的。汽车需要道路支持等等。当我们进入一个新的场景,甚至一个单目图像,我们可以使用这些认知。
实验:单视角深度和多视角姿态判断。
图1
图1,我们的系统训练数据的无标签图像的连续捕获从不同的角度出现,并且没有提供图像的姿态。我们的训练程序产生两个独立的模型,一个是单视角深度预测,另一个是多视角相机姿态判断。
在本实验中,我们模仿这种方法,通过训练一个模型,按照图像和目标的顺序来解释他的观察,我们使用端到端的方法使模型直接从输入的像素中画出一个自运动判断和基本的图像结构。受之前工作的启发,我们将视图合成作为一个单位度量。并且最近解决了端到端帧多视图3d情况下的标准化问题。我们的方法是无监督的,并且只能通过使用连续图像来训练,而不需要手动标记,甚至不需要摄像机运动信息。我们的方法基于对几何视图合成系统的深刻理解。只有当几何场景的中间预测和摄像机姿态与物理真实值一致时,系统才能平稳运行。
对于某些类型的场景,不完整的几何或姿态判断会欺骗合理的综合视图。(例如,缺乏纹理)如果相同的模型被呈现给具有不同布局和外观结构的另一种场景,它将非常失败。因此,我们的目标是将视图的所有综合传输路径设想为卷积神经网络的推理过程。因此,对于视图合成的元任务,基于大规模视频数据的网络训练被迫学习中等深度的任务,而摄像机姿态判断则是想出与视觉世界一致的解释。在kitti上证明了单视角深度和相机姿态判断研究方法的有效性。
研究方法
为了将单视角深度卷积神经网络和摄像机姿态判断与无标记视频序列一起训练,提出了一种框架。虽然深度模型和姿势判断模型是一起训练的,但是它们可以在测试结论过程中独立运行。给我们的模型的训练样本包括由移动摄像机捕获的图像序列。
图2
图2:基于视图合成的监督方法概述。深度网络只需要将目标视图作为输入,然后输出相应的像素d?t (p ).手势网络需要提取目标视图(it)和目标附近的视图(例如it?1和it+1)作为输入,并输出相关的摄像机姿态(t?t→t?1,t?T→t+1)。两个网络的输出与原始视图相反。重建目标视图,利用光度学的重建损失训练卷积神经网络。通过使用视图合成作为监督,我们可以以无监督的方式训练视频中的剩余帧。
假设我们对大多数静止的场景感兴趣。在不同的帧中,场景的外观会发生变化,最终相机的运动会主导场景的变化。
深度卷积神经网络和姿态预测的关键监控信号来自异常视图合成:视图场景的输入,以及来自不同相机姿态的场景的新图像的合成。我们可以合成一个目标视图,给出新图像的像素深度,并在视图附近附加姿态和清晰度。正如我们将在下一步中展示的,这个合成过程伴随着以完全可识别的方式运行的卷积神经网络。清晰度可以通过非刚性和其他非模型因素来控制。
图3
图3,图中显示了可识别的图形扭曲过程。对于目标视图的每个点pt,我们首先基于预测的深度和相机姿态将其投影到原始视图,然后使用双线性插值来获得目标位置pt处的扭曲值。
实验结论
1)单视角深度判断
我们把连续的图片分成三部分,中间的图片作为目标视图,前后的图片作为原始视图。我们使用彩色相机一起捕捉这些图像,但是当训练序列形成时,它们应该被单独处理。结果是总共有44,540幅连续的图片,其中40,109幅用于训练,4,431幅用于确认。我们是第一个通过单反视频中的无监督学习来学习单视角深度判断的人。在这里,我们提供了与以前的深度监督学习方法和最近的标准立体图片训练方法的比较。因为使用我们的方法进行深度预测是由比例因子决定的。
图4
图4提供了一个视觉比较的例子,将我们的结果与基于大规模样本的监督学习进行比较。可以看出,通过无监督的训练,我们的结果相当于通过有监督的学习获得的结果。其中,保存深度限制和薄弱结构,如树木和路灯,表现较好。
在最后两行,我们的模型显示了典型的误差,当巨大的空场景和目标物体离相机太近时,这是很困难的。
图5
在图5中,我们展示了由我们最初的城市景观模型和最终模型获得的样本预测。由于两个数据集之间的域名差距,城市景观模型有时很难恢复汽车或灌木丛的完整形状,如果目标太远,判断将是错误的。
2)姿势判断
为了评估我们的姿势判断网络的性能,我们将我们的系统应用于官方的kitti距离测量方法(包括imu/gps在11个驾驶序列中读取的真实距离测量值),使用00-08进行训练,使用09-10进行测试。在这个实验中,我们将输入系统的图像固定为5个部分。我们将自我运动判断与单反球-slam(一种被广泛接受的slam系统)的两种变体进行比较。1)orb-slam (all)使用驾驶顺序的所有部分来恢复里程。2)orb-slam(短)仅使用5个短片段(与我们的输入设置相同)。
图6
图6:当滚转角较小时,我们的方法明显优于球击(短),整个过程的效果相当于球击(满)。我们的方法与orb-slam(简称orb-slam)的巨大性能差距表明,我们的自学习运动在单反slam系统的局部判断模块中有很大的应用潜力。
作者周廷辉也在github中打开了实验代码
Viaberkeley,由雷锋编辑
雷锋文章版权所有。严禁擅自转载。详情请参考转载说明。
来源:搜狐微门户
标题:UC伯克利联合谷歌推出无监督深度学习框架,模仿人眼实现视频中的自我运动认
地址:http://www.shwmhw.com/shxw/62909.html