本篇文章3054字,读完约8分钟

4月27日,在清华大学建校108周年之际,清华大学大数据研究中心和清华-快手未来媒体数据联合研究所联合举办了清华大数据论坛——深度学习技术与应用。清华大学的老师、学生和校友聚集一堂,讨论共享深度学习技术和应用的最新进展。

清华大学-快手未来媒体数据联合研究所成立于2018年4月正式成立。作为清华大学的校级科研机构,学院充分利用清华大学多年来的领先技术和行业积累,在各个领域开展基础和应用研究、开发、集成和快速迭代,共同探讨未来的一系列媒体话题,使技术能够更好地赋予用户权力,实现更准确的人与人之间的联系。

2001年毕业于软件学院,现任清华-快手未来媒体数据联合研究院副院长、快手爱科技副总裁的郑文博士发表了题为《深度学习在短视频领域的应用与展望》的分享演讲。以下是演讲的核心内容。

作为一款拥有超过1.6亿日常生活的短片应用,快手的使命是“用科技提升每个人独特的幸福感。”这里有两个关键词,一个是“每个人”,这表明快手的价值观是非常普遍的,但我们也强调每个人的幸福是“独一无二的”。单靠人工操作很难实现为所有人服务,需要借助人工智能技术,尤其是近年来取得突破的深度学习技术来实现。

清华大数据论坛落幕 快手AI技术副总裁郑文分享深度学习应用

目前,手快的人通过记录来提高幸福感,这可以体现在两个方面。首先,用户希望看到一个更广阔的世界。其次,用户也需要分享自己,让更广阔的世界看到自己。

然而,这里有一个挑战。现在有超过80亿的视频和上亿的用户。面对这两个庞大的数字,如何有效地分散注意力?过去,人们的注意力一般集中在所谓的“爆炸性视频”上,但在爆炸性视频下,仍然有很多内容可能包含非常丰富的信息和多样的类别,这样的“长尾视频”往往很难被别人注意到。这样,对于一些有小需求或细分兴趣的群体来说,通常很难找到他们想要的东西。

清华大数据论坛落幕 快手AI技术副总裁郑文分享深度学习应用

这一挑战决定了我们必须依靠基于深度学习的人工智能技术来解决这个问题,而不是手动的内容匹配分发。从很早开始,快手就积累了很多与人工智能相关的技术,从视频制作到发布的每个环节都有很多深度学习的应用。

内容制作

快寿希望通过人工智能技术使记录更丰富、更有趣。基于这一目标,我们开发了大量的多媒体和人工智能技术,如背景分割、天空空分割、头发分割、人体关键点、人脸关键点、手势关键点检测等,并将其应用于魔术表情。

快手用户的分布方式与中国互联网用户相同。中国互联网用户使用的手机大多是低端手机,计算能力有限。先进的人工智能技术需要大量的设备计算。为了让大多数用户体验到先进的技术,底层平台进行了快速定制和开发。基于fast hand开发的ycnn深度学习推理引擎和媒体引擎,上述技术可以在大多数模型上高效运行,并针对不同的模型和不同的硬件进行调整和优化。

清华大数据论坛落幕 快手AI技术副总裁郑文分享深度学习应用

快手还希望提高内容质量,并开发和应用了许多图像增强技术。例如,当用户在黑暗的环境中拍摄时,所产生的视频中的信息和细节通常会丢失,并且这些细节可以通过暗光增强技术来恢复。

接下来,是快手最近在内容制作方面开发的一些具体的深度学习技术。三维人脸技术可以为单个人脸图像恢复人脸的三维信息。一方面,它可以实现对人脸的一些修改,如抛光,做一些表情,实现三维人脸变换效果;另一方面,通过三维人脸信息,我们可以提取人的表情变化,然后将表情转换成虚拟的卡通图像。这种效果类似于iphone推出的anim Ji功能,但是iphone有一个结构光摄像头,运行anim Ji需要很强的计算能力。通过技术研发,我们可以在配置较低的普通相机和手机上实现类似的功能。

清华大数据论坛落幕 快手AI技术副总裁郑文分享深度学习应用

刚才,我也提到了语义分割技术。人像分割技术可以区分人像和背景,分别对人像和背景进行特效处理,或者替换背景,也可以使人像模糊;头发分割,可以划分头发区域和染发。天空空分割技术可以使天空空地区更加超现实和梦幻。

人体姿势的估计是为了预测人体关节的位置。有了这项技术,我们可以给人的四肢添加特殊效果,或者改变人的体形,并起到健身和减肥的作用。此外,我们还可以重建人体的三维信息来控制卡通图像。

手势检测是检测各种特定的不同手形,从而实现“控雨”等游戏。此外,还有ar相机姿态估计,其背后是一个由快手开发的3d引擎。在此基础上,设计了编辑器模块、渲染模块、肢体模块、声音模块等。以实现模型的精致自然的光感和材质。

在音频和视频方面,我们已经应用了许多智能算法,例如,我们需要视频尽可能清晰,但同时我们也需要平滑传输,这需要对视频复杂度进行一些自适应优化。此外,我们还将分析图像。例如,视频中的脸部区域通常对每个人的感知都有最大的影响。我们将检测面部区域并提高编码率,这将大大提高整体感知。

我们还将检查图像质量。例如,在视频制作过程中,有一些因素会导致图像质量下降,如拍摄时没有对焦,镜头长时间没有擦过,或者视频多次上传和压缩产生块状缺陷。我们将通过人工智能算法检测这些问题。一方面,我们提醒用户在拍摄时要注意这些问题,另一方面,我们在做视频推荐时会倾斜高质量的视频。

内容理解

内容制作完成后,视频将被上传到后端服务器,在那里我们需要对视频内容有更深入的了解。视频内容理解可以用于许多方面,例如内容安全、原始保护、推荐、搜索、广告等。这里大致有两个阶段。

第一个是感知阶段,机器将从四个维度理解视频信息:面部、图像、音乐和声音。

面子是一个非常重要的维度,因为面子往往包含着人们关心的最重要的部分。我们将检测面部区域并识别年龄、性别、表情等。

另一个维度是图像层次,我们将对图像进行分类,比如图像的场景是什么;此外,它还检测图像中的对象,评估图像质量,并使用ocr技术从图像中提取字符。

音乐是影响视频吸引力的重要部分。我们可以从视频中识别音乐类型,甚至对音乐进行结构分析,将伴奏和演唱分开。

语音也是视频的一个非常重要的方面。通常,视频传达的信息可能无法很好地从图像中获得。在这个时候,演讲非常重要。我们将识别语音并将其转换成文字。我们也将通过言语来识别人们的身份、年龄、性别等等。

第二个阶段是推理阶段,我们将以多模态的方式融合这些不同维度的信息,推理更高级别的声音信息,或者识别视频的情感。我们还使用知识地图技术将知识存储在视频中,并在知识地图中表达出来。通过知识地图的推理,我们可以得到一些更高层次、更深层次的信息。

在内容理解方面,我们也做了一些具体的技术,比如开发一个视频标签系统,可以对视频中的大部分内容和场景进行分类。在快速手语音识别功能模块中,采用深度学习算法结合上下文模块,大大提高了识别准确率。

一方面,我们需要了解视频内容,另一方面,我们也需要了解用户,包括用户披露的年龄、性别等信息,以及用户在实时使用快手时产生的一些行为数据。这些数据将被传输到后端深度学习模型,并且用于理解用户的向量将被训练。通过这些向量,我们可以预测用户的兴趣以及他和其他用户之间的关系。

最后,我们得到用户的描述和对视频的理解。用户和视频之间的匹配将产生具有数万亿特征的大数据,这些特征将用于实时在线推荐系统,以预测用户将对哪种视频感兴趣。此外,我们将对社区中的内容进行分类。例如,我们提到了如何分配注意力。我们希望关注度分布的差距不会太大,所以我们会根据基尼系数来调整视频内容的分布。此外,还将考虑内容安全性、多样性和原始保护等因素。

清华大数据论坛落幕 快手AI技术副总裁郑文分享深度学习应用

最后,我们也希望进一步加强与高校和学术界师生的深度合作,充分利用快手的海量数据和强大的计算能力,共同推进深度学习技术,挖掘未来更多的可能性,提升公众幸福感。这也是成立清华大学-快手未来媒体数据联合研究所的设想。谢谢你。

来源:搜狐微门户

标题:清华大数据论坛落幕 快手AI技术副总裁郑文分享深度学习应用

地址:http://www.shwmhw.com/shxw/35252.html