本篇文章3215字,读完约8分钟
"在垃圾泛滥的互联网信息海洋中,真正有价值的信息绝对稀缺."
4月27日,4月26-27日,第十届全球移动互联网大会在北京召开。会议的主题是人工智能,人工智能领域的领军人物迈克尔. I .乔丹和扬.莱昆都出席了会议。智湖的合伙人、高级副总裁李大海应邀参加了全球人工智能领袖峰会,并发表了关于人工智能算法和人文价值的演讲。
他说,如果智湖被视为拥有1.4亿居民和游客的超级城市,那么智湖的社区规范就是使城市正常运转的法律法规。智湖平台的管理不仅可以通过产品和操作手段手工完成,而且人工智能也可以参与其中,从而更智能、更高效地实施社区规范,更好地普及网络讨论礼仪,这是人工智能能够带来的人文价值。
在演讲结束时,李大海首次宣布了智湖和无线城市的概念。在充斥着垃圾的网络信息海洋中,真正有价值的信息绝对稀缺。智虎鼓励每个人分享知识,收集每个人的知识并为他人所用。技术一直在帮助智虎实现更准确、更高效的连接。现在,人工智能已经深入参与到社区内容分享和传播的每个环节,让更多的人提出有价值的问题,邀请最适合回答的用户,激发更多分享见解和经验的愿望,推荐更多专业和严肃的知识,满足更多人的好奇心,连接1.4亿注册用户,甚至上亿网民。
以下是由企业家和我黑马编辑的李大海演讲的摘录:
谢谢你的邀请。我很荣幸代表智湖参与社区共享。现在人工智能算法已经被应用到内容平台的各个方面。业界已经谈论了很多人工智能算法对平台的商业和商业价值。今天,我想借此机会告诉你关于人工智能的人文价值。
智虎出生的初衷很简单。我们相信,在信息爆炸的互联网海洋中,有价值的信息仍然是稀缺的。基于这一理念,我们成立了智湖,希望用户可以互相分享信息,互相利用,帮助用户更好地了解世界。
为了让用户积极分享他们的知识、经验和意见,一个开放和包容的讨论环境是必要的。因此,从智虎诞生的第一天起,我们就通过经营和产品手段保持了良好的讨论氛围。我们是第一个将友好作为一项要求写入社区规范的人。
截至今年3月底,智湖已有超过1.4亿注册用户和3400万日常用户。用户在智湖提出了2300万个问题,得到了近1亿个答案。目前,智湖已经成为中国互联网上最大的知识共享平台。
如果我们把智湖比作一座城市,它是一座拥有数亿居民和游客的超级城市。这个城市的法律法规是我们社区的准则。在这个超级城市,如果我们用手工操作和维护法律,那将是低效的。因此,引入了先进的人工智能算法技术来帮助智虎管家团队保持社区氛围。
我们要解决的问题是自然语言领域的自然语言处理问题。事实上,人工智能并不如自然语言处理中的图片那么好,但是智虎已经积累了一个高质量的中文语料库,其中包含了大量高质量的问答。另外,用户行为也是一个非常重要的数据。
当用户来智湖制作和消费内容时,他们也在建立社区,他们的行为是社区系统的一部分。例如,用户同意或不同意一个答案、报告、发起一个主题或公开编辑该主题,这在某种程度上可被视为标记相应的文本语料库。有了这些标注数据,我们可以使用机器学习算法来获得更好的语义表示,并帮助我们理解语言。
这形成了一个正闭环。由于良好的社区氛围,智湖的大多数用户行为都是高质量的。用户的高质量行为会得到高质量的标注数据,这更有利于我们通过人工智能算法维护和增强社区中的讨论气氛。
此外,智湖团队经过七年多的运作,积累了丰富的社区管理经验。我们意识到,社区规范不是制定出来的,而是必须由平台和用户摸索出来的。在这个过程中,我们了解不同用户的不同需求,让我们规范复杂多变场景的匹配。这些经验对我们登陆人工智能非常有帮助,它可以把大气的空洞问题分解成清晰的小目标。
经过两年多的工作,我们建造了一个名为瓦力的算法机器人。目前,瓦力已经能够快速应对歧视、恶意贴标、辱骂等不相关、不友好的内容,并全力帮助智虎管家团队减少低质量内容和不相关内容对用户的干扰,为用户提供人文关怀。瓦力机器人可以达到99.13%的符合率,并且有两个工作方向:一是进一步提高不同领域的准确率和召回率;第二,不断提高瓦力机器人的适用范围。
瓦力机器人能力的提高离不开我们的用户。例如,我们最近启动了一个我们反对的功能测试,50,000名用户参与了这个功能的内部测试。所谓的合理反对是指当用户点击反对时,他同时选择反对的理由。每次用户选择,对瓦力来说都是一个新的学习机会。在内部测试中,我们通过用户选择和瓦力的组合,梳理了20,000多个不相关的答案。
下面,我将从技术角度简要谈谈我们的瓦力机器人是如何做到的。以无关答案为例,我们使用随机森林模型来解决这个问题。什么是随机森林?随机森林是由随机机制产生的许多分类数字组成的森林。它的分类编号是把这个样本放入每个编号中进行分类。如果我们讨论智虎的宠物是狗还是狐狸,让每棵树为自己投票。模型完成后,取得了较好的效果,准确率可达97%。
但是也有两个问题:第一,召回率只有58%,这意味着我们会错过坏人,一些不相关的答案会给用户带来不好的体验。此外,该模型需要统计用户行为特征。也就是说,如果一个新的答案被分类来判断它是否不相关,就有必要把它放到网上观察一段时间,并且有必要统计用户的反对意见或对其点击量的报告。这是一个问题,因为它会上线并损害用户体验。因此,我们发展了一种基于卵生模型的思想来提高网络结构的表达能力。最后,我们的召回率有了很大的提高,从60%提高到80%。现在,用户发布的任何答案都可以快速分类。当然,它也有缺点,其准确率已经下降。在这种情况下,我们可以通过结合其他业务策略来弥补。
此外,智虎在阴阳鉴定方面也有一些做法(即反语)。这是一个非常困难的问题,也非常有趣。我们的思路是在深刻理解语义的基础上进行语义分析。根据我们的实践,如果同一个句子发生在两个好朋友之间,那可能是插科打诨和调情。但是如果是在两个陌生人之间,那一定是敌对或不友好的。因此,我们将从两个方向综合判断。反语是情感分析领域的前沿课题,其难点在于它通过完全肯定的词语来表达否定语义,这是一种非常高级的修辞手段,机器人很难理解。
在训练中,我们将尽可能地把内容的特征输入到模型中,包括文本特征、数字特征、反语词汇和一些表达特征。然而,出于与处理无关问题相同的原因,我们将不包括用户的统计特征。我们使用的网络拓扑模型是cnn和lstl的结合。
最重要的是,我们在智湖层使用大量一致的语料库来生成标准数据,这也是用户行为。简单地说,如果许多高质量的用户反对一个内容,我们认为它是负面的内容。同样,如果许多用户同意一个评论,它可能是积极的内容。基于这些数据,我们可以构建大量的标注数据。
我们还在开发这个方案,等结果出来后,我们会在智湖专栏发表,大家也可以关注一下。这个问题很难,我们必须解决许多细节,这可能需要很长时间。通过研究和分析大量高质量的用户行为,智虎将对语义和用户关系有更深的建模和理解。
以上是我对人工智能算法和人文价值的分享。一个开放包容的社区非常重要,是孕育百花齐放文化的重要土壤。当然,智虎作为一家科技公司,不仅在这个领域使用了人工智能,而且在智虎的内容生产、流通和消费中也广泛使用。
接下来,我们计划建立一个人工智能和人机结合的无线城市。什么是无线城市?我们相信,在未来,每个智虎用户进入社区后,都能很快找到他感兴趣的人和内容,他的问题可以很快推给那些能够回答并且愿意回答的人,分享他最了解的信息,并与产生共鸣的人进行更深入的交流。我们将建立这样一种与效率的思维联系,以便每个人头脑中的警示性普遍观点能够被分享、筛选并转化为这个时代的知识。在这种联系下,知识的生产模式和迭代效率将发生质的变化,这就是我们所认为的无线城市。
在建设无线城市的过程中,我们会遇到什么挑战?我们的挑战实际上主要在于人。我们希望更多有实力的业内人士加入我们的行列,把智湖建设成为一个具有人文价值的无线城市。谢谢大家。
来源:搜狐微门户
标题:知乎合伙人李大海GMIC演讲:AI 算法与人文价值
地址:http://www.shwmhw.com/shxw/46069.html