本篇文章2179字,读完约5分钟
搜索引擎是如何一步一步变得如此强大的,它下一步将向哪个方向发展?
本文由微软研究院人工智能标题授权的黑马出版,作者杨卯。
当你有问题要回答时,你通常会选择问谁?现在,不知不觉中,许多人的选择已经变成了搜索引擎。天气、交通路线、图片、视频、家庭作业答案等。搜索引擎可以回答人们在日常生活中遇到的许多问题。即使对很多人来说,如果他们在搜索引擎上找不到答案,世界上可能就没有现成的答案,所以我们需要自己去探索。
这样,搜索引擎似乎是最强大的人工智能之一,自二十年前就一直生活在我们身边。搜索引擎是如何一步一步变得如此强大的,它下一步将向哪个方向发展?本文从搜索引擎的发展入手。
搜索引擎的诞生和发展
搜索引擎的诞生源于早期人们对在互联网上高效搜索信息的需求。早期使用传统图书馆信息检索技术的搜索引擎不能满足每个人的需求。无论网页排名的准确性、响应速度还是索引网页的数量都不能满足互联网用户的需求。在新的需求下,出现了几种常见的通用搜索引擎:谷歌、微软必应、雅虎(雅虎使用微软必应作为其搜索技术提供商)和百度。其中大多数是在2000年左右建立的。当这些搜索引擎诞生时,大数据、机器学习和分布式系统这几个词与它们密切相关。
首先,现代搜索引擎充分利用了互联网数据的特点。网页之间的超链接和网民在网页上自发留下的足迹,如产品评论和喜好,已经成为搜索引擎对网页进行更好分类的基础。同时,搜索引擎的系统设计使其成为一个可以不断学习和自我完善的系统。搜索引擎根据用户对相关结果的点击行为来评估自己的算法。
2005年,微软在基于机器学习算法的排名系统不断学习的基础上,总结不同用户对搜索引擎的反馈,提出了一系列基于神经网络和决策树的网页排名算法,如ranknet、lambdarank和lambdamart。这些算法基于大规模的机器学习系统,提高了搜索引擎的排名精度。同时,机器学习算法还有很多其他的应用,比如检测垃圾网页,提高搜索广告的相关性等等。
除了以上算法的进步,系统层面的不断创新也有助于搜索引擎的进步。在谷歌成立之初,它率先进行了系统创新,将所有网页信息尽可能多地保存在计算机内存中,而不是磁盘上,这样可以将回答用户问题的时间从几秒钟缩短到几毫秒。
自2008年以来,微软必应搜索引擎根据固态硬盘的特点重新设计了网页的索引结构。新的多级索引结构不仅可以保证相当于全内存系统的查询速度,而且可以将单台机器支持的网页数量和查询吞吐量提高数倍,从而保证搜索引擎可以索引和服务更多的互联网网页。
大数据系统与搜索引擎的发展息息相关。为了更方便地存储和处理网页信息,谷歌推出了mapreduce、bigtable、gfs等著名的分布式系统,拉开了大数据时代的帷幕。与此同时,微软还部署了宇宙、树妖、scope、麒麟等系统。其中,dryad和scope系统已成为新一代大数据处理系统的参考设计模型,因为它们的设计理念更具前瞻性。
更多人工智能搜索体验
随着机器学习算法的不断改进、搜索引擎巧妙的人机交互设计以及分布式系统的创新,搜索引擎已经不自觉地成为人们生活中不可或缺的一部分。与此同时,随着人们新需求的不断出现,搜索引擎并没有停止变革的步伐。一方面,搜索引擎试图以不同的形式显示在你面前。例如,cortana、siri、google now和其他会话式智能交互技术都离不开搜索引擎的支持。与此同时,它不断扩大其新的能力。
如果你足够小心,你可能会发现当前的搜索引擎可以更直接地回答你搜索的特定问题。例如,在搜索结果页面的右侧,会有与您的搜索相关的其他类似实体的信息。在页面顶部,一些结果(如天气、航班和其他信息)将以更丰富的形式提供答案。最近,一个更引人注目的变化是搜索引擎开始尝试直接回答许多智力问题,而不是一些网络链接。例如,当你问如何制作美味的节日小吃和如何安装新软件时,微软必应搜索可以直接给出答案。
搜索引擎是如何做到的?要回答这个问题,我们必须提到过去在深度学习领域的研究进展。搜索引擎使用大量数据和dnn/rnn等新算法来充分理解网页内容和用户问题之间的关系,从而帮助用户直接在网页中找到与问题相关的答案。微软最近收购的由著名深度学习专家yoshua bengio指导的深度学习初创公司Maluuba也旨在增强微软在深度阅读理解领域的实力。微软的研究团队在深度文本理解方面也处于领先地位。
随着算法的发展,搜索引擎的背景也在迅速演变。为了支持以深度学习为代表的新一代机器学习算法,GPUs、fpga和定制的asic芯片已经逐渐进入搜索引擎的数据中心。索引和分类服务系统也在进一步发展,以满足算法对处理能力的要求。为了实时处理大规模数据,超低延迟网络被广泛使用。
智能搜索引擎的下一个目标
所有这些努力都是为了更好地满足人们对搜索引擎的需求。但是搜索引擎真的能完全理解所有人类知识系统吗?它的下一个任务是什么?
显然,目前搜索引擎已经能够更好地总结互联网上的信息,以满足每个人的搜索要求,并能直接回答一些常见的问题。然而,不知道搜索引擎是否能够真正理解这些信息的内在含义,创造性地解决以前从未出现过的问题,并有效地进行自我推理。但有一点是肯定的,更具创造性的机器学习算法、更强大的计算能力和创新的人机交互是一切的基础,这些都是工业界和学术界共同努力的方向。
来源:搜狐微门户
标题:让搜索引擎更智能需要经历什么?
地址:http://www.shwmhw.com/shxw/58453.html