本篇文章2071字,读完约5分钟
雷锋。(公开号码:雷锋。科技评论:每天,谷歌地图为成千上万的人提供方向、实时交通信息和商业信息。为了提供最佳的用户体验,需要根据现实世界的变化不断调整地图信息。街景汽车每天收集数百万张照片。通过每天手动分析800多亿张高清图片,显然不可能发现新的变化或更新地图信息。因此,谷歌地面实况团队的目标之一是从地理位置图像中自动提取信息,以升级谷歌地图。
雷锋。据了解,在“基于注意力的街景图像结构化信息提取”一文中,谷歌描述了所采用的方法——如何利用深层神经网络自动准确地读出街景中的街道名称。我们的算法系统在挑战法国街道名称标志(FSNS)数据集时达到了84.2%的准确率,明显优于以前的优化系统。重要的是,当提取其他类型的信息时,谷歌的系统很容易扩展。例如,现在帮助谷歌自动提取商店前面的商家名称。目前,这个模型已经是开源的了。
图中显示的是法国街道名称识别数据集中的一个例子,它是由谷歌系统正确识别的。上图显示了同一标志的四个不同视角
自然环境下的文本识别是计算机视觉和机器学习中一个非常具有挑战性的问题。传统的光学字符识别(ocr)系统主要集中于从扫描文档中提取文本。在自然场景中,由于视觉伪影,如扭曲、遮挡、方向模糊、背景凌乱或角度不同,很难提取文本。自2008年以来,谷歌一直在努力解决这个问题,利用神经网络模糊街景图像中的人脸和车牌,以保护谷歌用户的隐私。从最初的研究中,该团队意识到,经过足够的数据标注培训后,机器学习不仅可以保护用户的隐私,还可以自动更新与谷歌地图相关的最新信息。
2014年,谷歌地面真相小组公布了在街景门牌数据集(svhn)上读取门牌号码的方法,然后暑期实习生伊恩·古德费勒(现谷歌员工)应用了这一方法。这项工作不仅出于学术兴趣,也是让谷歌地图更加精确的关键。现在,由于这个系统,超过三分之一的全球地址在谷歌地图上有自己的位置。在巴西等一些国家,该算法将谷歌地图的地址增加了90%以上,极大地提高了谷歌地图的可用性。
下一步是将这些技术扩展到街道名称。为解决这一问题,谷歌创建并发布了法国街道名称标志(fsns),该标志拥有超过100万个街道名称训练数据集,旨在提高人们在实际使用中对ocr模型的理解。Fsns是谷歌经过多年努力建立的。它比svhn数据集更大、更具挑战性,因为如果你想准确识别一个街道标志,你可能需要整合从不同角度拍摄的照片。
以上图片是一些难以识别的标记,通过对图片的理解,谷歌系统已经做出了正确的判断。特别是第二种,但是这种模式以前学过语言模式,所以可以消除歧义,正确识别街道名称。值得一提的是,在fsns数据集中,当独立视图少于四个时,同一路标会增加随机噪声。
谷歌实习生zbigniew wojnazai在2016年夏天用这个数据集开发了一个深度学习模型,可以自动标记新的街景。这种新模式的一个优点是它可以根据日常命名惯例来标准化文本。
在上例中,“av”可以转换成“avenida”和“pres”可以转换成“总统”,这是我们期待看到的结果
在这张图片中,模型没有被图片中的两个街道名称混淆,正确地将“av”转换为“avenue”并识别数字“1600”
虽然这个模型非常精确,但它仍然有15.8%的序列错误率。然而,在分析了错误的样本后,该团队发现其中48%是由于地面真实误差,这意味着模型的准确性和标记质量呈现基本相同。(我们的论文中有详细的错误率分析)
这个新系统结合了提取街道号码的技术,使我们能够直接从图像中创建新的地址。现在,每当一辆街车在新建的道路上行驶时,我们的系统可以捕捉数千万张图像,提取街道名称和号码,并在谷歌地图上自动创建和定位新地址。
但是自动为谷歌地图创建一个地址是不够的。此外,我们还希望为企业提供导航。2015年,我们发表了一篇名为《从街景图像中发现大规模商业》的文章,文章提出了一种准确检测商店外墙标志的方法。然而,当检测到商店的外墙时,仍然需要准确提取其有用的名称。模型必须找出哪个文本是商家名称,哪个文本是无关的。谷歌称这种提取为“结构化文本”信息提取。它不仅仅是一个文本,而是一个具有语义的文本。
使用不同的训练数据,我们用来读取街道名称的模型结构也可以用来准确提取企业名称。在这种特殊情况下,如果我们已经知道这个商家在谷歌地图上的位置,我们只能提取商家名称进行验证,这样它就可以更准确地更新商家列表。
如上图所示,虽然没有从图片中获得关于真实地址的信息,但是系统正确地识别了商人zelina积气的名字,并且没有被旁边的轮胎品牌所欺骗。
该模型需要处理800多亿张街景图像,并且需要强大的计算能力。这就是为什么谷歌地面真相小组采用tpu,这可以大大降低我们的推理和计算成本。
人们依靠谷歌地图的准确性来帮助他们工作和生活。与此同时,随着地形、道路和商业不断变化,更新谷歌地图的技术挑战远未解决。为超过10亿谷歌地图用户创造更好的用户体验一直是谷歌地面实况团队的目标。
雷锋编辑的谷歌研究博客
雷锋文章版权所有。严禁擅自转载。详情请参考转载说明。
来源:搜狐微门户
标题:谷歌地图重大升级,用深度学习实时更新街景
地址:http://www.shwmhw.com/shxw/63011.html