本篇文章1360字,读完约3分钟
雷锋。(公开号码:雷锋。在信息爆炸的时代,如何在浩瀚如海的网络中找到自己的需求?谷歌的研究团队推出了粗糙的话语数据集,可以消除段落中的“废话”,准确识别用户需要的目标信息。作为《雷锋》的编辑。收集和分类信息是日常工作中非常耗时的事情。谷歌的新方法能解决这个问题吗?
每天,社区中活跃的人们都在发送和分享他们的观点、经验、建议和社交活动,其中大多数都是自由表达的,没有太多的限制。这些在线讨论通常是许多重要主题下的关键信息资源,如育儿、健身、旅游等。然而,这些讨论往往夹杂着混乱的分歧、幽默、争论和铺垫,要求读者在寻找他们想要的信息之前先过滤内容。信息检索领域正在积极探索让用户更有效地查找和浏览内容的方法,在论坛中讨论共享数据集的缺乏有助于更好地理解这些讨论。
在这个空月,为了帮助研究人员,谷歌发布了粗糙话语数据集,这是最大的注释数据集。课程讨论网站包含100,000多条公众评论,人们可以在网上讨论,这些评论是从reddit网站的130个社区和9,000多个话题中随机选取的。
为了创建这个数据集,我们开发了一个论坛注释的话语分类系统。一般来说,这意味着阅读每一条评论,判断评论在讨论中起什么作用。我们使用众包人工编辑来重复和修改这个练习,以验证话语分类的可再现性,包括声明、问题、回答、同意、不同意、解释和幽默。根据这些数据,众包编辑对100,000多条评论的话语类型和关系进行了单独注释。除了众包编辑的原始评论外,我们还为编辑提供了一个标记任务的指南,以帮助他们从其他论坛收集数据并进一步完善任务。
该图显示了一个注释有话语类型和关系的示例线程。早期的研究结果表明,问答模式在大多数社区中是一个突出的应用,一些社区有更集中的对话和互动。
本文提出了一种新的方法,将网上讨论中的评论分类到一些粗糙的语料库中,以便在一定规模上更好地理解这一目标的实现。为了促进这项研究,我们设计了一个粗糙的语料库分类,旨在一般的网上讨论,并允许工作人员作出简单的评论。使用我们的语料库,我们演示了如何分析话语行为,它可以描述不同类型的讨论,包括话语序列,如问答对、分歧链以及在不同社区中的表现。
最后,我们进行了实验并使用我们的语料库对话语行为进行了预测,发现结构化预测模型在条件随机情况下可以达到75%的f1分数。我们还演示了如何将话语行为从一个简单的问题和答案扩展到一个更丰富的类别。问答抽取的召回率可以得到提高。
实验结论使用了一种新的话语行为分类。我们介绍了一个最大的手动标注数据集的讨论,它是从红迪网上的数千个社区中抽取的,每个帖子上的每个评论都是根据话语行为和关系进行注释的。从我们的数据集中,我们观察常见的话语序列模式,包括问题、答案和参数,并使用这些信号来代表社区。最后,我们使用结构化crf模型进行了分类话语行为实验,获得了75%的f1分数。此外,我们还展示了如何利用我们的九种话语行为来提高问答抽取的召回率。
对于试图描述在线讨论本质的机器学习和自然语言处理的研究者来说,我们希望这个数据集是一个有用的资源。您可以访问我们的github库下载数据。请参阅论文icwsm“使用粗糙的话语序列描述在线讨论的特征”更多细节。
viagoogle雷锋。com编译
雷锋文章版权所有。严禁擅自转载。详情请参考转载说明。
来源:搜狐微门户
标题:如何捕捉冗长讨论里的目标信息?谷歌推出最大标注数据集
地址:http://www.shwmhw.com/shxw/61720.html