本篇文章2309字,读完约6分钟

雷锋。(公开号码:雷锋。新闻网:这篇文章是由图普的科技工程师从雷锋独家推出的《打败老师:弱监督下的神经排序模型》中编辑的。

近年来,无监督深层神经网络在计算机视觉技术、自然语言处理和语音识别任务方面取得了很大进展,但在信息检索的排名中仍处于同一位置,没有太大的改进。原因可能在于排序问题的复杂性,因为在没有监督信号的情况下,神经网络很难从查询内容和文档中获取信息。因此,本文提出用“弱监督”来训练神经排序模型。也就是说,训练所需的所有标签都是由机器自己获得的,没有人工输入的标签。

“弱监督”下的神经排序模型

因此,我们使用“无监督”排名模型的输出,如bm25,作为“弱监督”模型的信号。接下来,我们将进一步训练一系列基于“前馈神经网络”的简单而高效的排序模型。我们还将检查它们在不同训练场景中的效果,例如使用不同的输入表示(密集/稀疏表示向量或“嵌入”文本表示)分别训练“逐点模型”和“成对模型”。我们可以很容易地从无监督的红外模型中得到“弱标记数据”。实验结果表明,预先训练大量“弱标记数据”对有监督神经排序模型非常有益。

“弱监督”下的神经排序模型

我们调查的三个主要问题是:

问题1:是否有可能仅通过使用来自无监督ir模型的标签作为弱监督训练数据,例如bm25,来完成神经排序模型的训练?

问题2:在这种情况下,什么样的输入表征和学习目标最适合模型训练?

问题3:在弱监督的过程中,特别是在有限的标记数据的情况下,监督学习模型能被优化吗?

分类架构我们尝试了三种神经分类模型:

1.分数模型

这种体系结构实际上是一种逐点排序模型,用于预测“查询文档”组合的检索分数。从专业角度来说,该体系结构的目标是掌握一个“评分函数”,它可以确定一个“查询文档”的检索分数。我们可以用线性回归图来粗略地表达这个问题:

2.分类模型

像第一个“分数模型”一样,“排名模型”的目标是掌握“分数函数”。但不同的是,“排名模型”并不是为了标准化分数搜索功能。因此,我们在“排名模型”的训练中使用了“双情境”。具体来说,我们在训练中使用了两个具有相同参数的逐点模型。为了将损失降至最低,我们更新了参数:

在推导过程中,由于两个模型是相同的,我们只取其中一个作为最终的分数函数模型,并逐点使用训练好的模型。

3.测试排序模型

第三等级体系结构的基础是包括训练和演绎的“双重语境”。该模型旨在学习“排序功能”,包括一个查询内容和两个文档(d1和d2)。根据查询内容,模型预测d1文档排名高于d2文档的可能性。这个问题可以用返回图来粗略表达:

输入表示

输入层表示可以用固定大小的向量表示输入的“查询文档组合”,然后这个固定大小的向量将被输入到完整的连接层。

在实验中,我们研究了三种不同的输入图层表示:

1.稠密向量表示

传统的稠密向量表示法覆盖了输入“查询文档组合”的各种数据信息。我们还构建了一个包含bm25特征的密集向量表示,以便网络在接收相同输入时能够适应bm25公式中描述的函数。

2.稀疏向量表示

现在,我们尽量不去处理那些只包含聚合数据的完全特殊的表示,而是让机器帮助我们提取特征。通过从查询内容和文档中提取词频向量,我们专门建立了一个“词袋”表示,并将这三个向量串联输入网络。

3.“嵌入式”表示

前两种输入表示的最大缺点是字符被视为离散单元。因此,网络不能在语义相似的词中执行“软匹配”。在这种输入表示中,我们依靠文本嵌入来实现更强大的查询文档表示,这种表示可以跨越词汇鸿沟。

机器可以从训练数据中提取识别信号,这些输入表示决定了网络提取信号的能力和不同的网络推广行为。

不同排序结构和不同输入表示的组合可以包含在排序模型的改进方案中。我们使用了来自两个标准集的600多万个查询和文档,即同质新闻集(健壮)和大规模异构网络集(线索网),来进行网络训练。我们的实验结果表明,如果我们采用合适的目标函数,让网络根据“弱监督数据”(实验排序模型+嵌入式模型)学习输入表示,我们的网络可以表现得很好。

“弱监督”下的神经排序模型

因为我们只使用bm25作为模型训练的监督,而且训练出来的模型甚至超过了bm25,所以现在模型的性能非常显著。

一方面,虽然完整的“词匹配”是检索和排序的一个重要特征,但它不足以获得相关性的概念。另一方面,bm25仍然是一种相对有效的字符匹配方法。

如何工作虽然我们给神经网络提供了一些弱标记的情况,但是我们已经成功地使网络超越了信号本身,并且我们已经从不同的角度看到了这些情况的相关性。因此,当“词匹配”不能正确指示相关性时,该模型可以自己完成相关性的推导。例如,学习密集型表示(如“嵌入式表示”)可以帮助网络捕捉语义匹配并检测语义相关性;bm25不能这么做。

“弱监督”下的神经排序模型

关键信息:从我们的“弱监督”模型训练实验中,我大致总结了一些关键信息:主要内容:利用大量的无监督数据来推断“弱标签”,并利用“弱标签”的弱信号来学习监督模型。

设定一个目标,让你的模型远离弱监管数据缺陷。

让机器决定使用哪种表示,并让它提取自己的特征。手动将特征输入机器会扼杀模型的创造力!

如果输入的特征数据是设计好的,模型的通用性很可能会被削弱,你可能会面临“过度拟合”的问题。

如果你有足够的训练数据,你的机器可以很容易地通过局部案例掌握全局信息。

如果你有足够的数据源,你可以学习更好地匹配你的任务的“嵌入”。通过不断更新,“嵌入”将更紧密地匹配您的任务。但前提是你有足够的数据来源。

当你的模型中不存在表征学习时,神经网络的非线性部分就没什么用了。深层神经网络最重要的优势在于其高效的表征学习能力。当你的深层网络“深”到一定程度时,它的优势就不起作用了。

雷锋的特别贡献。严禁擅自转载。详情请参考转载说明。

来源:搜狐微门户

标题:“弱监督”下的神经排序模型

地址:http://www.shwmhw.com/shxw/61119.html