本篇文章6702字,读完约17分钟
知识图是人工智能的一个重要分支技术,由谷歌在2012年提出。它已经成为构建大规模知识的杀手级应用,在搜索、自然语言处理、智能辅助、电子商务等领域发挥着重要作用。
知识地图、大数据和深度学习这三大“秘密武器”已经成为推动互联网和人工智能发展的核心动力之一。
本期智能内部参考中,我们推荐清华大学人工智能研究所、北京致远人工智能研究所和清华大学工程学院知识与智能联合研究中心联合发布的人工智能知识地图报告,并详细解读该人工智能技术分支的概念、技术、应用及发展趋势。如果你想收集这份报告(清华大学人工智能知识图谱),你可以去阿米尔官方网站(Aminer/research _ report/5c3 d5a 8709 e 961951592 a 49d?下载=真)以获得下载。
以下是智能内部参考整理呈现的干货:
知识地图的概念和分类
知识图由谷歌在2012年提出,并成功应用于搜索引擎。它以结构化的形式描述客观世界中的概念、实体及其关系,并以更接近人类认知世界的形式表达互联网上的信息,提供了更好的组织、管理和理解互联网上海量信息的能力。
知识地图有多种分类方式,如知识类型和构建方法。就领域而言,知识地图通常分为两种类型:一般知识地图和特定领域知识地图。
▲知识地图示意图
公共知识地图图主要包括三种节点:实体、概念和属性。
实体是指可区分的、独立存在的东西。比如某个人、某个城市、某个工厂、某个商品等等。世界上的一切都是由具体的事物组成的,具体的事物指的是实体。实体是知识地图中最基本的元素,不同的实体有不同的关系。
概念是指具有相同特征的实体的集合,如国家、民族、书籍、计算机等。
属性用来区分概念的特征,不同的概念有不同的属性。不同的属性值类型对应于不同类型属性的边缘。如果属性值对应于一个概念或实体,则该属性描述两个实体之间的关系,称为对象属性;如果属性值是特定的数值,则称为数据属性。
知识地图的三种典型应用
如今,以商业搜索引擎公司为首的互联网巨头已经意识到知识地图的战略意义,并在知识地图的布局上投入巨资,这日益对搜索引擎的形式产生重要影响。如何根据业务需求设计和实现知识地图应用,并根据数据特征进行优化和调整,是知识地图应用的关键研究内容。
知识地图的典型应用包括语义搜索、智能问答和可视化决策支持。
1.语义搜索
目前,在知识地图的支持下,基于关键词的搜索技术可以升级为基于实体和基于关系的搜索,称为语义搜索。
语义搜索可以利用知识地图准确捕捉用户的搜索意图,进而解决传统基于知识地图的搜索中的关键词语义多样性和语义消歧问题,通过实体链接实现知识和文档的混合检索。
语义检索需要考虑如何解决自然语言输入带来的表达多样性问题,同时也需要解决语言中实体的歧义问题。同时,在知识地图的帮助下,语义检索需要直接给出满足用户搜索意图的答案,而不是包含关键词的相关网页的链接。
2.智能问答
问答(qa)是一种先进的信息服务形式,它使计算机能够自动回答用户提出的问题。与现有的搜索引擎不同,问答系统以自然语言的形式返回准确的答案,而不是基于关键词匹配对相关文档进行排序。
智能问答系统被认为是未来信息服务的颠覆性技术之一,也是机器具有语言理解能力的主要验证手段之一。
智能问答需要理解用户输入的自然语言,并从知识地图或目标数据中给出用户问题的答案。它的关键技术和难点包括准确的语义分析、正确理解用户的真实意图以及对返回的答案进行评分以确定优先顺序。
3.可视化决策支持
可视化决策支持是指通过提供一个统一的图形界面,结合可视化、推理和检索,为用户提供对信息的访问。例如,决策支持可以通过地图可视化技术在风险投资地图中解释创业公司的发展和投资机构的投资偏好等信息,通过节点探索、路径发现和关联探索等可视化分析技术展示公司的全方位信息。
在可视化决策支持中需要考虑的关键问题包括帮助用户通过可视化快速发现业务模式,提高可视化组件的交互友好性,以及大规模图形环境中底层算法的效率。
通用知识地图和特定领域知识地图
1.常识地图
通用知识地图在视觉上可以看作是面向通用领域的“结构化百科知识库”,它包含了现实世界中的大量通用知识,覆盖范围很广。由于现实世界中的知识丰富、多样且极其复杂,一般的知识地图主要强调知识的广度,通常是利用百科全书数据通过自顶向下的方法构建的。下图显示了常识知识库的知识地图。
外国数据库使用固定模型从维基百科中提取信息实体。目前,它拥有超过2800万个127种语言的实体和数亿个rdf三元组;Yago整合了维基百科和wordnet的大规模本体,拥有10种语言的约459万个实体和2400万个事实。
国内致仕me从开放的百科数据中提取结构化数据,整合了百度百科、互动百科和中文维基百科的数据,拥有1000万个实体数据和1.2亿个rdf三元组。
2.领域知识地图的应用
领域知识地图常用于辅助各种复杂的分析应用或决策支持,应用于许多领域,但不同领域的构建方案和应用形式不同。
以电子商务为例,电子商务知识地图以商品为核心,以人、商品和领域为主要框架。目前,一级本体有9大类,二级本体有27大类。
第一级本体是:人、商品、领域、百科知识、行业竞争、质量、类别、资格和公众意见。人、商品和领域构成了商品信息流通的闭环,而其他本体主要是对商品进行更丰富的信息描述。
上图描述了商品知识地图的数据模型。数据来源包括国内外数据、企业国内数据、线上线下数据和其他多源数据。目前,有数百亿个节点和数百亿个关系。
电子商务知识地图,这种商品“大脑”的一个应用场景是购物指南。所谓的购物指南是为了让消费者更容易找到他们想要的东西。例如,当买家输入“我需要一条漂亮的丝巾”时,“商品大脑”将通过语法和词汇分析提取语义点“一”、“漂亮”、“丝绸”和“丝巾”的关键词,从而帮助买家寻找合适的产品。
为了让购物指南中的发现更容易,“商品大脑”还学习了很多行业规范和国家标准,如棉花、低糖和低嘌呤。
此外,它还具有与时俱进的优势。“商品大脑”可以从公共媒体和专业社区的信息中识别出最近的热门词汇,跟踪热门词汇的变化,并通过操作确认它们是否成为热门词汇,这就是为什么购买者在输入热门词汇后会出现他们想要的产品,如切割男性颜色、禁忌之吻和流苏风。
最后,智能“商品大脑”也可以通过实时学习来构建场景。例如,如果你进入“海边买什么”,你会发现泳衣、游泳圈、防晒霜、沙滩裙和其他产品。
知识工程的五个发展阶段
知识地图技术是知识工程的一部分。1994年,图灵奖获得者、知识工程创始人费根鲍姆给出了知识工程的定义——将知识集成到计算机系统中,从而完成只有特定领域的专家才能完成的复杂任务。
回顾过去40年知识工程的发展,我们可以将知识工程分为五个标志性阶段:前知识工程阶段、专家系统阶段、万维网1.0阶段、群体智能阶段和知识地图阶段,如下图所示。
1)1950-1970:图灵测试——知识工程的早期阶段
这个阶段有两种方法:象征主义和联结主义。象征主义认为物理符号系统是智能行为的充分必要条件,而连接主义认为大脑(神经元及其连接机制)是所有智能活动的基础。
这一时期的知识表示方法主要包括逻辑知识表示、产生式规则、语义网络等。
2)1970-1990:专家系统——知识工程蓬勃发展的时期
由于一般问题解决强调利用人解决问题的能力建立智能系统,而忽略了知识对智能的支持,人工智能很难在实际应用中发挥作用。从70年代开始,人工智能开始转向建立基于知识的系统,并通过“知识库+推理机”实现机器智能。
在此期间,知识表示方法有了新的发展,包括框架和脚本,许多专家系统开发平台出现在20世纪80年代后期,这有助于将专家的领域知识转化为可由计算机处理的知识。
3)1990-2000年:万维网1.0
从1990年到2000年,出现了大量人工构建的大规模知识库,包括广泛使用的英语wordnet、以一阶谓词逻辑知识表示的cyc常识知识库和中文知网。
万维网1.0的出现为人们提供了一个开放的平台,它使用超文本标记语言来定义文本的内容,并通过超链接将文本连接起来,使公众能够共享信息。Xml是w3c提出的一种可扩展标记语言,它通过定义标签来标记互联网文档内容的结构,为互联网环境下的大规模知识表示和共享奠定了基础。
4)2000-2006年期间:团体情报
万维网的出现使知识从封闭知识走向开放知识,从集中式知识构建走向分布式群体智能知识。最初,专家系统是在系统中定义的知识。现在,知识来源可以相互联系,更多的知识可以通过联系产生,而不是由固定的人产生。
在这个过程中,群体智能应运而生,最典型的代表是维基百科。事实上,用户构建知识,这反映了互联网用户对知识的贡献,并成为当今大规模结构化知识地图的重要基础。
5)2006年以来:知识地图——知识工程的新发展时期
“知识就是力量”。这一时期的目标是将万维网的内容转化为能够被机器理解和计算的知识,这些机器能够为智能应用提供动力。自2006年以来,类似维基百科的大规模结构化知识资源的出现和网络规模信息抽取方法的进步,使得大规模知识获取方法取得了很大进展。
目前,自动构建的知识库已经成为语义搜索、大数据分析、智能推荐和数据集成的强大资产,并被广泛应用于大型行业和领域。典型的例子是2012年谷歌收购freebase后推出的知识图谱、facebook的地图搜索、微软的satori以及商业、金融、生命科学和其他领域的特定知识库。
上表显示了知识地图领域的10次重要国际学术会议,为知识地图领域的研究方向、技术趋势和学者研究成果提供了重要信息。
将知识转化为地图需要多少步骤?
知识地图技术是建立和应用知识地图的技术。参考中国信息学会语言与知识计算委员会发布的《2018年知识地图发展报告》,该报告将知识地图技术分为知识表示与建模、知识获取、知识融合、知识地图查询与推理计算、知识应用技术。
1.知识表示和建模
知识表示将现实世界中的各种知识表达成可由计算机存储和计算的结构。机器必须掌握大量知识,尤其是常识知识,才能实现真正的类人智能。
目前,随着词向量等嵌入技术在自然语言处理领域的出现,利用连续向量(transe translation model,sme,slm,ntn,mlp,nam神经网络模型等)进行知识表示的研究也越来越多。)正逐渐取代上述基于符号逻辑的知识表示方法,成为现阶段知识表示的研究热点。更重要的是,知识图嵌入通常被用作一种先验知识,以帮助输入到许多深层神经网络模型中,从而约束和监督神经网络的训练过程,如下图所示。
与传统的人工智能相比,知识地图时代基于向量的知识表示方法不仅能够以简单实用的基于三元组的知识表示方法满足规模扩展的要求,而且能够作为大数据分析系统的重要数据基础,帮助这些数据更容易与深度学习模型集成。
同时,随着以深度学习为代表的表征学习的发展,知识地图中实体和关系的表征学习取得了显著的进步。知识表示学习将实体和关系表示为密集的低维向量,实现了实体和关系的分布式表示,成为知识地图语义链接预测和知识完成的重要方法。
知识表征学习是近年来的研究热点。研究人员提出了各种模型来学习知识库中实体和关系的表示。然而,关系路径的建模还比较初步,在关系路径的可靠性计算和语义组合操作方面还有很多详细的研究要做。
2.知识收集
知识获取包括实体识别和链接、实体关系学习和事件知识学习。
1)实体识别和链接是知识地图构建、知识完成和知识应用的核心技术,也是海量文本分析的核心技术,为计算机人类推理和自然语言理解提供了知识库。
实体识别是理解文本含义的基础,即识别文本中特定类别实体的过程,它可以检测文本中的新实体并将其添加到现有的知识库中。
2)实体关系识别是自动构建知识地图和自然语言理解的基础。实体关系是指两个或多个实体之间的某种联系,用来描述客观存在的事物之间的关系。实体关系学习是从文本中自动检测和识别实体之间的一些语义关系,也称为关系抽取。
实体关系抽取分为预定义关系抽取和开放关系抽取。预定义关系抽取是指系统抽取的关系是预定义的,如上下级关系、国家与资本关系等。开放式关系抽取不预先定义抽取的关系类别,系统自动从文本中发现并抽取关系。
3)事件知识学习是将自然语言表达的事件以结构化的形式呈现在非结构化的文本中,这对于知识的表示、理解、计算和应用具有重要意义。
事件是动态的结构化知识,是改变事物状态和关系的条件。目前,现有的知识资源(如谷歌知识地图)大多描述实体及其关系,但缺乏对事件知识的描述。
3.知识整合
知识地图可以由任何组织或个人自由构建,其背后的数据来源广泛,质量参差不齐,导致它们之间的多样性和异质性。语义集成是为了将不同的知识地图集成为统一、一致和简洁的形式,并为使用不同知识地图的应用程序之间的交互建立可操作性。
常用的技术包括本体匹配(也称为本体映射)、强度匹配(也称为实体对齐、对象共用手指解析)和知识融合。
语义集成的一般过程主要包括五个环节:输入、预处理、匹配、知识融合和输出,如上图所示。
众包和主动学习等人机协作方法是案例匹配的研究热点。这些方法利用普通用户,以较低的人工成本获得丰富的先验数据,从而提高匹配模型的性能。
随着表征学习技术在图像、视频、语言和自然语言处理等领域的成功,一些研究者开始研究面向知识地图的表征学习技术,该技术将实体和关系转化为低维空的实体向量(即分布式语义表征),并在知识地图完成和知识库问答等应用中取得了良好的效果。
同时,近年来强化学习取得了一些进展,如何在语义整合中运用强化学习逐渐成为一种新的趋势。
4.知识地图查询和推理计算
知识地图以图形的形式显示实体、事件及其关系。知识地图存储与查询研究如何设计一种有效的存储模式来支持大规模地图数据的有效管理,实现知识地图中知识的高效查询。
知识推理从给定的知识图中导出新实体之间的关系,在知识计算中起着重要的作用,如知识分类、知识验证、知识链接预测和知识完成。
知识地图推理可以分为符号推理和统计推理。
在人工智能的研究中,基于符号的推理一般基于经典逻辑(一阶谓词逻辑或命题逻辑)或经典逻辑的变体(如默认逻辑)。基于符号的推理可以从现有的知识地图中推断出实体之间的新关系,并且可以用于构建新知识或检测知识地图上的逻辑冲突。
基于统计的方法通常指的是关系机器学习方法,即通过统计规律从知识图中学习实体之间的新关系。
发展趋势和挑战
总体而言,知识地图的发展将继续呈现专业化、开放性和智能化的趋势。为了充分发挥现有知识地图的知识表达和知识资源的优势,其他技术(信息推荐、推理地图、机器学习、深度学习等。)是必需的。
虽然互联网巨头已经意识到知识地图的战略意义,并在知识地图的布局上投入巨资,但我们也强烈地感到,知识地图仍处于发展的初级阶段,大多数商业知识地图的应用场景非常有限。例如,搜狗和知识立方更注重娱乐和健康。
同时,根据各搜索引擎公司提供的报告,为了保证知识地图的准确性,在构建知识地图的过程中仍然需要使用更多的人工干预。
如何合理地设计表达方案,以更好地涵盖人类复杂多样的知识?如何准确高效地从互联网大数据中提取知识?如何将大量的噪声和冗余知识有机地结合起来,构建一个更大的知识地图?如何有效实现知识地图的应用,利用知识地图实现深层知识推理,提高大规模知识地图的计算效率和应用场景?
未来,知识地图将是大数据智能的前沿研究问题,这些重要的开放性问题需要通过学术界和工业界的合作来解决。
以下两个数字是由一个数据平台绘制的知识地图领域的最新全球热门词汇。
从以上两个数字可以看出,知识库、信息检索、数据挖掘、知识表示、社会网络等方向在知识地图领域有着持久的流行。
此外,近年来对信息抽取、查询响应、问答、机器学习、概率逻辑、实体消歧、实体识别、查询处理和决策支持的研究兴趣逐渐增加,而对概念图、搜索引擎和信息系统的兴趣逐渐消退。
智东熙认为,在知识地图的推动下,以智能客服和智能语音助手为主导的人工智能应用正成为第一批实现人工智能技术的先锋。知识地图因此成为主要人工智能和互联网公司的军事战略家的战场。连同大数据和深度学习,它们已经成为推动互联网和人工智能发展的核心驱动力之一。
然而,正如报告中所提到的,为了确保准确性,在构建知识地图的过程中仍然需要更多的人工干预;同时,知识地图还处于早期开发阶段,商业应用场景有限,需要进一步开发。
来源:搜狐微门户
标题:AI人必看!89页清华知识图谱报告
地址:http://www.shwmhw.com/shxw/33634.html