本篇文章3572字,读完约9分钟

[TechWeb]今年7月8日,自然语言处理(nlp)领域的世界顶级学术会议“2020 ACL”在网上召开,大湾区人工智能研究所的两篇创新论文入选,均聚焦于中文分词领域。

“利用词罩记忆网络改进中文分词”和“通过双向att联合中文分词和词性标注”是由美国华盛顿大学博士生、创新工程实习生田元和、大湾区创新工程人工智能研究所执行院长严松、创新工程研究伙伴张彤、创新工程研究伙伴王永刚、创新工程首席技术官、人工智能工程研究所执行院长共同撰写的两篇论文。

这两篇论文分别提出了基于关键值记忆神经网络的中文分词模型和基于双通道注意机制的分词和词性标注模型,创造性地将外部知识(信息)融入到分词和词性标注模型中,有效地消除了分词的误导噪声,大大提高了分词和词性标注的效果,并将该领域广泛使用的数据集上的所有得分都刷到了一个新的高度。

今天,大湾区人工智能研究所创新工程执行院长严松与媒体分享了这两篇精选论文的研究内容。严松本人在自然语言处理领域有超过15年的研究经验。

严松认为,中文分词和词性标注是中文自然语言处理的两个基本任务。近年来,随着预训练模式的引入,有人质疑是否有必要进行中文分词处理,我们也提出了不同的意见,尤其是考虑到词汇层面的信息仍然是中文信息处理的最重要的基础。例如,尽管伯特是流行的,但基于汉语全词掩蔽的预训练模型比直接使用单个词编码要好。

创新工场两篇论文入选ACL2020 中文分词和词性标注新模型性能创新高

在这两篇文章中,创新作品通过记忆神经网络记录了对分词结果有影响的N元组,并引入了对词性标注有影响的句法知识,将分词结果与自动获取的知识联系起来,不仅充分发挥了神经网络的优势,而且利用了知识的优势,从而实现了分词技术的小而有效的改进和突破。

基于键值存储神经网络的中文分词模型刷新了中文分词的历史性能

严松介绍说,一般来说,汉语由于其特殊性,在分词方面面临两大困难。

一是歧义,因为汉语中有很多歧义,常用的分词工具在分词时可能会出错。例如,一些居民的生活水平的正确划分应该是部分/居民/生活/标准,但也有分离和民生等模糊的词语。他在小学学的是计算机技术,正确的分词是:他/从小/学习/计算机技术,但也有像小学这样的歧义词。

第二,生词的问题。未注册的单词指的是不在词汇表中的单词或模型在训练中没有遇到的单词。例如,经济、医学、科学和技术领域的技术术语、社交媒体上的新词或人名。这种问题在跨领域分词任务中尤为明显。

为此,本文“利用词库记忆网络改进中文分词”提出了一种基于键值记忆神经网络的中文分词模型。

该模型利用N元组(即由连续N个词组成的序列,如2元组和4元组生活标准)提供的每个词的造词能力,通过增加(减少)权重实现特定语境下的歧义消解。通过无监督的方法,构建词库,实现特定领域无标记文本的使用,从而提高未知词的识别率。

例如,在“一些居民的生活水平”这个短语中,有多少可能变成大块的单词?词可以组成词,如人;每两个词的组合可以是一个词,如一个居民;甚至四个词的组合也可能变成词,比如居民的生活。

找到所有可能的单词组合后,将它们添加到分词模型中。通过神经网络,我们可以了解哪些词更有助于完整地表达句子的意思,然后分配不同的权重。部分、居民、生活和水平等词将被突出显示,但分离和民生等词将被减少权力,从而预测正确的结果。

键值记忆神经网络分词模型

在他的小学计算机技术的句子中,对于小学的歧义部分(有两个子方法:从/小学和从/到学校),该模型可以给小学分配较高的权重,给错误的N元组小学分配较低的权重。

为了检验该模型的分割效果,本文进行了严格的标准实验和跨领域实验。

实验结果表明,该模型在5个数据集(msr、pku、as、cityu、ctb6)上的性能最好(f值越高,性能越好)。

严松表示,与以往的模型相比,发现该模型在所有数据集上的性能都超过了以往的工作,在中文分词领域广泛使用的标准数据集的性能达到了新的高度。

与以前工作的比较

在跨领域实验中,本文使用在线博客数据集(ctb7)进行测试。实验结果表明,未登录词的整体F值和召回率都有很大提高。

基于双通道注意机制的分词和词性标注模型能有效消除噪声误导

第二篇论文“基于自动分析知识双向注意的中文分词和词性标注联合”,提出了一种基于双通道注意机制的分词和词性标注模型。

严松介绍说,中文分词和词性标注是两个不同的任务。词性标注是指用词性标注每个单词,如动词、名词、代词和形容词。词性标注在后续的句子理解中起着重要的作用。

在词性标注中,歧义仍然是一个长期存在的问题。例如,对于他想要向全班报告的内容,报告的正确划分和注释应该是report _vv/ book _ n。但是,由于报告本身是一个常用词,因此可以用常用工具将其标记为report _nn。

运用句法知识正确标注词性

句法标记本身需要大量的时间和人力成本。在以往的标注工作中,使用外部自动工具获取句法知识是主流方法。在这种情况下,如果模型不能识别和正确处理带有噪声的句法知识,就有可能被不准确的句法知识所误导,做出错误的预测。

例如,在“何很擅长功夫”这句话中,马和尚应该分开(正确的标记应该是马/尚)。然而,根据一般的句法知识,可能获得不准确的分段和句法关系,例如,立即。

斯坦福大学的自动解析工具将结果分为即时

为了解决这个问题,创新工场的论文提出了一种基于双通道注意机制的分词和词性标注模型。

在该模型中,中文分词和词性标注被视为可以集成的联合任务。该模型对自动获取的语境特征和句法知识进行加权,预测每个词的分词和词性标记,并对其注意通道中不同的语境特征和句法知识进行比较和加权,从而识别特定语境中不同语境特征和句法知识的贡献。

通过这种方式,对模型的预测贡献很小的不准确的上下文特征和句法知识可以被识别并被赋予较小的权重,从而避免模型被噪声信息误导。

基于双通道注意机制的分词和词性标注

即使自动获取的句法知识不准确,该模型也能有效地识别和利用这些知识。例如,在将句法知识不准确的歧义句子输入到双通道注意模型后,可以获得正确的分词和词性标注结果。

分词和词性标注示例

为了测试该模型的性能,在一般领域和交叉领域进行了实验。

通用领域的实验结果表明,该模型在五个数据集(ctb5、ctb6、ctb7、ctb9、通用依赖)上的性能(f值)超过了前人的工作,大大超过了斯坦福大学的corenlp工具和伯克利大学的语法分析器。

即使在不同于ctb词性标注规范的ud数据集上,该模型仍能吸收不同标注带来的知识,并利用这些知识获得更好的结果。

这个模型在所有数据集上都超过了以前的工作

Ctb5(ctb5是中文分词和词性标注最常用的数据集)

在跨领域实验中,与斯坦福大学的corenlp工具相比,该模型也有近10个百分点的改进。

跨领域分词实验结果(对话测试集)

严松总结说,从技术创新的角度来看,我们的贡献主要有两点。首先,在现有技术的基础上,建立一个集成的模型框架,通过无监督的方法构建词汇,整合知识(信息),利用更高级的句法知识来帮助词性标注,从而达到“他山之石”。第二,积极吸收和区分不同的外部知识(信息)。通过关键值记忆神经网络和双通道注意机制,动态权重分配可以有效区分知识的有效和无效。虽然这种知识是自动获得的,而且不准确,但这三个脑袋是聪明的,通过有效的使用,它们总能收集到一些有用的信息。如何实现模型的主动吸收和分解变得更加重要。

创新工场两篇论文入选ACL2020 中文分词和词性标注新模型性能创新高

一直以来,创新工程致力于将科技创新与行业赋权联系起来,将科学研究与工业应用联系起来,并为行业转变业务流程和提高业务效率。中文分词技术的研究也是如此。

在严松看来,中文分词和词性标注是最底层的应用,对下一步的应用和任务处理非常重要。例如,用于文本分类、情感分析、文本摘要、机器翻译等。,分词是不可缺少的基本组成部分。

当使用工业场景时,跨领域建模能力是一个非常直接的需求。严松强调。

严松以搜索引擎广告系统为例介绍了techweb。本文提出的新模型可以有效地实现不同领域内容匹配的冷启动。以现有的模型为例,在新闻领域学到的模型,如果你在体育领域遇到一个广告,其中的许多单词此时将不会被正确分割。然而,当使用我们的模型时,当在新领域中推荐广告内容时,我们可以谈论新领域的知识和预先准备的关键词,并且将它们添加到我们的模型中,以便通过更好的分词结果来呈现目标文本中的一些有效关键词,并且这些关键词可以匹配用户输入的一些单词,或者用户在特定网页浏览背景下遇到的一些内容。因此,如果分词结果正确,这两个部分中的内容可以有效地连接,使得用户在搜索时获得的广告内容与搜索结果相匹配。

创新工场两篇论文入选ACL2020 中文分词和词性标注新模型性能创新高

目前,这两篇论文的工具都是开源的。

分词工具:github/svaigba/wmseg

分词和词性标注工具:github/svaigba/twasp

来源:搜狐微门户

标题:创新工场两篇论文入选ACL2020 中文分词和词性标注新模型性能创新高

地址:http://www.shwmhw.com/shxw/31448.html