本篇文章3046字,读完约8分钟
2018年7月10日至12日,2018中国大数据应用大会在成都召开。会议主题为“大数据赋予数字中国”,由成都市人民政府指导,中国大数据专家委员会、中国电子信息产业集团公司中国电子学会、四川省经济和信息化委员会主办。世界工程组织联合会工程技术创新委员会(wfeo-ceit)、成都市经济和信息化委员会、成都世博局全力支持,由中国电子设备股份有限公司和中国电子学会科技交流中心承办,业内知名媒体协办。
会上,京东基础设施部副部长刘海峰发表了题为《大宗商品数据情报》的主题演讲。他表示,京东本质上是一个大数据企业,其中商品数据是其基石,也是所有产品技术的核心。由于其自身的独特性,商品数据在管理过程中也面临着一些挑战。
京东基建部副总裁刘海峰
在这方面,刘海峰介绍了京东如何通过最新技术实现商品大数据的存储和计算、知识地图的构建以及智能服务的优化。
以下是演讲的记录(内容是根据现场速记整理的,未经演讲者确认,仅供参考,谢绝转载):
大家早上好!今天,我想和大家分享京东作为一家电子商务公司在管理大规模、海量的商品数据和智能方面的工作。
海量商品数据的存储和计算
事实上,京东既不是零售公司,也不是物流公司,而是一个大数据企业。在快速发展的岁月里,JD.com积累了大量的数据,因为商品数据是其基石和所有产品技术的核心。由于其自身的独特性,商品数据在管理过程中也面临着一些挑战。首先,商品数据是多模态的,包括非结构化的图片、结构化的文本等等。其次,商品数据也是平台数据与用户生成数据相结合的模型,这对商品数据分析的独特技术构成了挑战。
随着公司业务的发展,在过去的五年里,京东的商品规模已经增长了数倍,今天已经达到了数百亿的商品规模。由此,我们可以看出单个量与gmv之间存在基本的线性关系。同时,我们将在未来继续扩展类别,不断增加平台上的数据量。
那么,如何存储海量的商品数据呢?对于一个管理粗矿石的企业来说,这个问题可以通过一个数据处理器来解决。但是对于数十亿的商品数据,我们需要一个统一的平台来管理它。具体来说,JD.com采用分而治之的方法,通过四个系统来满足商品数据的存储,从而构成了海量商品的管理框架。同时,我们使用分布式数据库来存储商业化的数据。商品数据本身冷热不均,它不是静态的,而是流动的。因此,我们通过该平台实现了对数据路由的观察。
其中,对于京东来说,核心载体是图片。为此,我们使用jfs系统进行处理。这是京东在2013年独立开发的一个系统,主要是为了满足自身的图像存储需求。经过五年的迭代,我们计划在今年下半年建立一个基于它的开源社区。所有的产品图片都通过上传服务从不同的地方存储和传输到多个数据中心,并且至少有两个中心和三个不同的磁盘。同时,外围有不同的图像处理服务,加速了内容分发网络的边缘,最终解决了体验问题。
将商品的结构按多级分类,然后在分类中创建一个表来完成梳理。在这方面,我们还建立了一个弹性数据库,它不仅可以兼容几个表,还可以透明地扩展和分割大型表,然后同时无缝迁移,使应用程序开发人员不再需要关心商品数据的扩展。在这个过程中,我们将热数据缓存在大型服务中。例如,您可以看到京东的所有内容都存储在内存中,包括广告的文本内容、推送服务等。
如上所述,数据在整个数据中心是动态流动的,所以我们需要掌握数据的趋势来完成可靠的数据传输。例如,通过实时索引数据,我们发现商品价格的变化可能导致广告策略的调整。在这方面,JD.com采用自主开发的gmp技术。因为商品数据存储问题解决后,需要对商品数据进行处理,这就需要多种框架和大量的处理方法,并且需要一种计算方法来进行多种管理。
此外,我们还建立了大规模的智能资源调度生态集群,并于今年年初加入了crf平台。在建筑层面上,JD.com在不同的地方采用多种活动。我们在北京有三个国际数据中心,在广东和江苏有一个,形成了三地五中心的布局。目前,我们已经能够透明地同步数据,以便上层应用程序开发部门能够更多地了解底层存储的细节。
智能商品数据
在商品数据存储和计算基础设施建设之后,京东近两年的主要工作是使数据智能化。接下来,我将从两个方面向大家介绍,一是图片的智能,二是文字的智能。
首先,我们使用人工智能重塑商品体系。如你所见,在过去,京东的图片数据增长已经达到1000亿的规模。如此快速的数据扩展将会成倍增加整个idc的流量,从而增加it成本。因此,我们必须做智能图像压缩,以降低运营成本,增强用户体验。为此,JD.com引入了yop技术,可以将所有图片的尺寸缩小30%。同时,今年年初,我们还引入了dbt的新技术,在yop的基础上可以将图像缩小近50%,不仅降低了带宽,还提高了终端用户的负载。特别是对于商品本身的特性,在这个过程中,我们还通过优化对其进行了三次压缩。
图片的第二个重要应用是图片合成。众所周知,对于任何一家电子商务公司,ued都会在许多活动或广告之前对其进行编辑。然而,自去年下半年以来,我们已经完成了一项工作,并意识到1%的图片是由机器合成的。这项工作分为三个部分:第一,在商家的原始图纸上制作智能按钮图纸;第二,学习智能排版;第三,优化系统功能,合成高质量的按钮图和美观排版。目前,我们的机器合成的图片数量约占产品总数的1%,估计两年后这一比例可能达到15%到20%,也就是说,活跃产品的普通图片将由机器制作。
在这样的过程中,可以学到很多设计师的排版经验。现在,一些简单的产品细节页面通过机器和算法进行排版和自动合成,这不仅减少了大量的劳动,而且大大提高了效率。当然,这项工作仍在进行中,着陆需要一些时间。此外,图片的智能化还包括相似图片的搜索。结合智能排版技术实现图片翻译的自动化,借助全球化战略,JD.com希望最终实现快速的全球商品推送。
第二部分是商品文本数据的智能化,其中最重要的是个性化广告和搜索。在过去两年中,我们的基本服务之一是商品知识地图,即进一步挖掘和抽象商品基本数据,包括工业数据和用户生成的数据。通过判断商品行业数据的属性,进一步提取类别,挖掘用户评价的情感和关键词,形成中间知识服务或图片数据。在此基础上,更智能的应用程序,包括搜索和个性化索引,将被启用。
举两个例子:第一,核心产品词的识别,这是一个经典的命名识别问题,而商品词有一个独特的挑战,即由于词是商家自己输入的,如何找到核心产品的真正名称,这是目前学术界没有很好解决的问题。因此,我们通过建模规则和知识库来解决这个问题。
另一个例子是提取评论关键词,因为它是由用户记录的,而且口语词非常严肃。因此,如果我们想把这种口语作为一个高质量的标签,我们需要一个好的方法来建立商品评价的语义知识库。基于产品地图,除了广告和搜索,我们还建立了一个智能客户服务机器人。这是由成都的一个研发团队完成的,该团队根据产品图进行了优化和授权。
另一个智能应用是书写机器人。刚才提到,图片可以由机器合成,一些购物指南和活动文章也可以由机器合成。它基于知识地图的一些标签和推理检索能力,以及机器深层学习的语言生成,从而节省了人工创建的成本。
综上所述,在商品大数据领域,我们主要做了以下工作:一是存储,二是计算,然后在此基础上构建知识地图,进一步优化智能服务。当然,与其他行业相比,这一领域存在许多不同的挑战。虽然我们目前取得了一些进展,但仍有许多工作在进行中。我希望我们能从在座的专家和同事那里得到更多的建议和指导。
谢谢你!
来源:搜狐微门户
标题:京东刘海锋:京东海量商品的数据智能是如何实现的
地址:http://www.shwmhw.com/shxw/49478.html