本篇文章1369字,读完约3分钟

最近,2018年全国青年学者视野与学习研讨会在大连召开。威士伯创立于2011年,是中国计算机视觉、图像处理、模式识别和机器学习研究领域的一次盛会。它的名字是优雅和谐的意大利华尔兹。它坚持自由平等的学术精神,为青年学者和学生提供了一个强有力的互动学术交流平台。这次会议吸引了许多科技公司和研究机构,如快手、阿里人工智能实验室、滴滴等。,展示和交流该领域尖端技术和产品的最新进展。

快手亮相VALSE2018  用视频理解技术实现“每个人独特的幸福感”

照片:会议上分享的快速多媒体内容理解团队的负责人

会上,快手技术展示了人脸识别、语音识别、三维人脸重建、视频搜索和多媒体内容理解等一系列酷酷的应用,其中许多前沿技术已广泛应用于快手产品中。多媒体理解(mmu)负责人李岩介绍了快手在计算机视觉、图像处理、模式识别和机器学习等领域的技术探索和人才积累。

快手首席执行官苏华曾指出,快手的公司愿景是实现每个人独特的幸福,希望每个人都能记录自己的生活,并有机会被世界看到。快手通过短片、图片和现场直播将人们联系起来,帮助他们消除一点孤独,增加一点快乐。这一愿景的实现有赖于快速技术团队的不懈努力,这一点可以逐步实现。

李岩进一步表示,要实现上述愿景,了解每一段视频是基础。每天都有大量的短片作品上传到快手平台上,日播放量达到150亿次。这些短片以各种方式记录生活,包罗万象。如何分层有序地提取视频信息,理解视频内容,并有效地将这些内容分发给对其感兴趣的用户,从而将人和内容准确地联系起来,需要极其强大的计算能力和技术支持,这也是学术界和工业界共同关注的话题。7年来,快手已经在人工智能、大数据和其他领域积累了经验。为了解决这个问题,快手多媒体内容理解部使用人工智能技术通过感知和推理两个阶段来解释每个视频。首先通过感知获得视频的客观内容信息,然后通过推理获得视频的高层语义信息。

快手亮相VALSE2018  用视频理解技术实现“每个人独特的幸福感”

在感知阶段,快手主要从人脸、图像、声音和音乐四个维度来分析和理解视频内容。人脸信息在社交视频中起着重要的作用。有必要检测、跟踪和识别视频中的人脸,分析视频中人物的年龄/性别和其他属性,并挖掘三维形状、表情和其他信息。在图像维度上,通过分类和目标检测算法分析场景和目标,通过图像质量分析算法评估图像的主观质量,通过光学字符识别分析图像中包含的文本信息。在语音方面,不仅进行语音识别,还进行说话人识别、情感年龄等语音属性信息分析;在音乐中,音乐信息是通过分析音乐识别、歌唱/伴奏分离和歌唱美化评分来构建的。基于以上四个维度,完成了对视频低层语义信息的感知。

快手亮相VALSE2018  用视频理解技术实现“每个人独特的幸福感”

在推理阶段,基于感知阶段的输出,视频可以作为一个整体进行分类、描述和检索;此外,正如人们将所学知识存储在大脑中一样,他们将快手的视频内容组织并存储在快手的知识地图中,从而将感知内容和知识地图相结合,使得理解视频的高级语义和情感成为可能。

据报道,快速多媒体智能分析团队拥有近100名高级算法研究人员和R&D工程师,其中大部分都有多年的bat工作经验,核心算法研究人员有十年的R&D经验。团队成员大多来自国内外顶尖大学,如清华大学、中国科学院、香港科技大学、南京大学、上海交通大学和京都大学。目前,该系仍在为全社会和高校寻找大量的计算机视觉、语音识别、视频内容理解、人脸识别和三维重建等相关领域的人才。

快手亮相VALSE2018  用视频理解技术实现“每个人独特的幸福感”

最后,李岩向与会者发出了诚挚的邀请,并欢迎有志于在多媒体理解领域做一些深入而有影响力的工作的同学们,携起手来,共同完成“实现每个人独特的幸福”的美好使命。

来源:搜狐微门户

标题:快手亮相VALSE2018 用视频理解技术实现“每个人独特的幸福感”

地址:http://www.shwmhw.com/shxw/45786.html