本篇文章7712字,读完约19分钟

2010年10月28日,讯飞语音输入法发布,当时没有微信。六年后,著名的“相声演员”罗永好在哈默m1的新闻发布会上展示了这种输入法。这一次,讯飞以一种意想不到的方式打破了朋友圈。

虽然讯飞在2014年启动了“超级大脑项目”,但它开始全面规划人工智能的所有领域。然而,这家成立于1999年、市值超过400亿元的公司,在很多人眼里,仍然只是一家“语音输入法”公司。

iFlytek在人工智能领域的布局是什么?

你觉得语音助理怎么样?

如何提高语音识别的准确性?

聪明的演讲者是一个错误的提议吗?它会成为智能家居的中心吗?

如何评价亚马逊的回声秀?

为什么机器转录仍然难以使用?

技术与蝙蝠相比如何?

......

带着这些问题,雷锋采访了HKUST IFlytek研究院副院长王世进。读完这篇文章,你会知道HKUST讯飞在人工智能领域做了些什么。他们对整个行业有什么看法?

王世进:博士,国际图联北京研究院院长,国际图联北京研究院副院长。他于2003年毕业于中国科技大学,并于2008年毕业于中国科学院自动化研究所。他长期从事语音、语言和人工智能的研究。他在中国首次主持了大规模的英语口语测试,并主持了两次获得国际比赛第一名的机器翻译。作为主要负责人,参与了工业和信息化部863计划和电子信息产业发展基金项目等重点项目。他在相关国际会议和期刊上发表了许多学术论文,拥有十几项专利和软件版权。

专访讯飞王士进:从底层AI技术解析 ,智能音箱是个伪命题吗?

雷锋。com在不改变初衷的情况下删减了采访的全文:

语音识别与自然语言处理语音识别雷锋。HKUST讯飞在语音识别方面取得了什么进展?

王世进:在语音合成方面,我们从去年年底开始发挥我们的力量,通过深入学习,实现了新一代的合成系统。现在,目标用户只需要半个小时到一个小时就可以录制,而且这个人的声音可以非常自然地合成。

在语音识别方面,讯飞正积极拓展物联网领域。在物联网时代,复杂场景的语音识别是非常重要的一点。我们不断优化车辆环境和家庭环境中的语音识别效果。

同时,讯飞听证系统中实时会议和发言的同声传译效果得到了进一步提升。一是转录的准确性不断提高,二是结合讯飞的口语翻译技术,实现会场演讲的多语种同声传译。

雷锋。讯飞的语音识别有多准确?

王世进:语音识别的准确性与场景和任务有很大关系。如果我们说具体的数字,它们可能是不客观的。例如,在移动应用场景中,我们可以达到97%的准确率。对于像会议快照这样的场景,我们可以达到95%的准确率。

雷锋。如何继续改进?

王世进:要解决这个问题,我认为可能取决于以下几点:

首先,从语音建模的角度来看,如何使模型更加准确?一方面是数据,另一方面是模型算法。因此,我们仍然在不断迭代。最初,我们只使用监督数据,这相当于手动标记的数据。这些数据总是有限的。现在我们正在考虑如何使用大量的无监督数据来辅助有监督的数据,这使得这个模型更加准确。

第二,从语言和语义出发。例如,有一些识别错误,我们一眼就知道这个地方是错的,哪里是错的。所以现在我们想把自然语言处理技术和领域知识结合起来。例如,如果你事先知道这是一个与教育相关的会议,如何结合与教育相关的知识,以便语音识别中的一些错误可以通过知识和模型来纠正。

自然语言处理雷锋:自然语言处理怎么样?

王世进:关于nlp,讯飞于2014年开始提出“讯飞超脑工程”,2015年我们承担了科技部的863解答项目。在自然语言处理中,我们主要做相关的工作,包括语言理解、知识表达、联想推理和自主学习。

在自然语言处理中,一项工作是关于知识的构建和表达。我们参加了nist kbp竞赛并获得了第一名。第二项工作是常识表达,这被业界认为是困难的。我们提出了深度联想模式,并参加了首届winograd比赛,获得了第一名。

第三个任务:如何帮助知识地图构建后的准确问答?最近,我们正在做一个非常重要的课题,叫做机器阅读理解。给定一篇或几篇文章,机器应该能够给出这些问题的准确答案。

这些是我们在自然语言技术方面的一些工作。

雷锋。你认为自然语言处理的主要困难是什么?

王世进:处理自然语言的最大困难来自它的模糊性。如何消除歧义在于如何引入知识和表达知识,这是我们正在积极探索的。

雷锋。将采用什么最新技术来解决这些问题?

王世进:专业术语主要有以下几种:

第一点是语言的深层语义表征。过去,我们在自然语言处理中经常使用词表,用来区分不同的词和语义。最初,离散表示的最大问题是单词之间的语义无法表达。现在,深度学习产生的单词嵌入实际上是一个语义向量,它能更好地表示单词。这是自然语言处理的核心技术。

获得语义向量后,我们可以更准确地完成知识表示和推理任务。例如,我们最初的推理实际上更多的是符号推理。在符号层次的推理中有一个很大的问题:因为歧义和知识不能被表达,这种推理总是有限的。但是现在我们使用深层语义,这使得解决这个问题成为可能。基于语义向量表示的自然语言处理框架使得自然语言处理有可能取得重大突破。

专访讯飞王士进:从底层AI技术解析 ,智能音箱是个伪命题吗?

语音助理雷锋:iFlytek的语音助理怎么样了?

王世进:讯飞四年前开始部署语音助理。经过几年的发展,与米谷数字媒体共同推出的米谷凌西在本地语音助理(注:易观国际数据)中排名第一,迅飞拥有一个非常庞大的人机交互团队,即我们的aiui系统。我们认为需要几个核心功能:

第一个核心功能与语音识别的效果有关。我们不断优化智能家居环境、汽车环境和许多其他场景中的语音识别能力。

二是语义纠错和语义理解。这只是将语音识别转化为文字的第一步。第二步是如何结合知识、常识和上下文来更准确地理解用户的内容并纠正错误。

但目前这里有一个悖论,因为从用户的角度来看,他们想要一个无所不能的助手,但从现代技术的角度来看,我们可以在一些垂直领域和场景中实用。

第三是多轮对话。事实上,多轮对话更多的是结合上下文和垂直场景,以便在垂直场景中创建一个完全智能的助手。

雷锋。做语音助理有什么困难?你觉得其他语音助理怎么样?

王世进:首先,自从语音助手提出这个想法以来,已经经历了几代人。

最早的一代主要是功能性的,比如打电话、发短信,以及一些像这样的基本功能。我们发现可能还存在一些问题。人们不仅仅需要使用手机,因为使用触摸非常方便,无论是电话还是短信,尤其是苹果手机问世之后,所以不仅仅是需要。

此外,当时语音交互不是一种普遍接受的模式,我们很少看到有人使用它,因为每个人都认为语音是一种相对私密的东西,所以很少有人在公共场所使用语音与机器进行交互。

在第二代中,许多语音助理,包括讯飞,引入了闲聊,而后续的微软萧冰采用了同样的策略,这使得许多人愿意与语音助理调情。这个概念已经流行了一段时间。虽然有一些简单的知识问答,但它们主要是基于闲聊。

现在是第三代了。经过前两轮思考,用户对语音助理有什么期望?我们相信,凭借语音识别和视觉识别的高精度,语音助理可以专注于任务,并帮助人们在一些垂直场景中做一些更真实的应用。

事实上,我们的aiui系统的多轮对话也希望关注任务,通过这种多轮人机交互,无论是由人还是机器发起的,都能满足用户的一些实际需求。

雷锋。以任务为中心,像一个应用程序?

王世进:是的,它类似于应用程序的功能。为什么亚马逊的回声这么热?因为亚马逊开辟了垂直领域扩展的功能,应用开发者和服务制造商可以定制自己的服务,这样亚马逊这个巨大的平台就可以承载越来越多的功能,所以我认为这是大家都非常认可的核心点。

雷锋。迅飞在汽车语音助手方面有什么进展?困难在哪里?

王世进:车载讯飞进入较早,因为车载讯飞更接近行业,这种互动模式正是需要的。

就车辆而言,讯飞主要关注两点:

首先是识别效果,如何做好车辆中的语音识别。车辆噪声,包括风噪声、轮胎噪声等。,会对认可度产生很大的影响。

第二,如何在几个垂直场景中很好地进行交互?包括导航、音乐等主要功能。事实上,它针对车辆中的几个主要应用场景进行了优化。

雷锋。一些人认为聪明的演讲者在中国实际上是一个错误的提议。你认为它的未来如何?

王世进:我认为有引号的聪明的演讲者一定是被需要的。什么意思?未来,智能家居将有一个中央控制器来解决这个问题,但它不是扬声器,它是一个没有屏幕的扬声器吗?很难说。现在业界还没有达成共识。如果有共识,就不会有各种形式的类似产品。

雷锋。智能扬声器会成为智能家居的中心吗?

王世进:事实上,对每个人来说,判断这件事并不容易。首先,每个人都认为将来家里会有一个中央控制系统,对吗?这个中央控制系统可能有几种类型。

一是现在每个人都在谈论以扬声器为中心,至少许多制造商已经在这么做了。另一种可能是专注于彩色电视,这也有一个优势,除了声音互动,它也有视觉互动。有人认为家庭智能网关是交互的中心,因为家庭中所有的硬件互连都可能通过网关。

但我认为这可能更适合用户和市场选择。不管是什么类型的设备,每个人都认为使用方便的人机交互作为载体是一种趋势。

雷锋。亚马逊的阿列克谢技能是一种趋势吗?讯飞将来会成为自己的技能商店吗?

王世进:从长远来看,alexa的技能商店是一种趋势。讯飞现在通过讯飞拓展了我们的能力,并通过众多合作伙伴建立了这个技能库。

在智能家居场景中,每个人都可以尝试各种垂直领域的各种类型,因为当前的技术无法提供通用服务。经过一段时间的技术和资源沉淀,我们可以提供更多的一般服务,建立一个更好的生态。

雷锋:触摸屏回声秀是未来的趋势吗?其他制造商会跟进吗?

王世进:事实上,我不认为这是必然的情况。就屏幕趋势而言,我认为有两种趋势。

第一个趋势是,所有设备都可以将屏幕放在家用电器的大屏幕上,而不是在echo上制作大屏幕。家里有很多带屏幕的设备。

其次,在无屏幕场景中,我们也可以通过vr/ar和其他技术来显示内容。

雷锋。机器转录和人工转录仍然有很大的区别。为什么会这样?它的困难是什么?如何解决?

王世进:语音识别有两个传统类别,一个是听写,另一个是转录。

听写很简单,因为(在听写过程中)我知道我在和机器交流,所以我会在语速、语言流利度和语言表达方面与机器合作。现在每个人都声称语音识别的准确率超过95%,这基本上是在这种情况下,因为人们将与机器合作。

但实际上,像正常交流这样的场景更多。更大的问题是什么?首先,噪音是一个大问题。其次,有些方言是混合的,甚至是多语言的。例如,许多人说中文时会说英语,这也是一个问题。

此外,还有流畅性的现象。一个相当于阅读新闻,另一个是口头交流,这是非常不同的。事实上,当我们相互交流时,我们需要语义和语境信息来使我们的理解更加准确。

由于这些类型问题的存在,机器抄写和听写的效果之间会有很大的差距,而且这个差距在最早的时候是非常大的。因此,正如你所看到的,事实上,语音识别首先应用于听写。但是,在转录方面,以前没有厂家敢尝试这种技术,而这款讯飞也在2015年大大提高了这项技术的水平。

那时,我们可以使识别率接近90%,而且90%基本上是每个人都能看到的。然而,90%离我们真正的最终转录还有10%的距离。10%似乎更少,但它仍然有很大的影响。

现在,这个使用人机辅助的场景比前一个好得多。现在我们可以达到95%左右的水平,这可以使人们更有效地输入信息。

雷锋。将来机器转录能完全取代速记员吗?

王世进:从长远来看,无论是语音识别还是机器识别,它都是一个概率系统。在概率系统下,它必须完全取代人。从目前来看,可能会有一些困难的问题。

我们与行业结合,做各种事情。我们希望它能与人形成有效的人机合作,使人们能更高效地完成某项工作。

雷锋。讯飞的机器翻译与谷歌翻译相比如何?

王世进:讯飞主要致力于将其机器翻译能力与语音识别能力结合起来,所以我们主要致力于口语翻译,包括我们的日常交流、海外旅行场景和会议转录场景。在这些场景中,我们的效果比谷歌好得多。谷歌最擅长将一种语言的能力扩展成多种语言能力。

讯飞翻译支持的语言并不多,所以如果我们想做一个语言翻译,我们就要用一种语言做好。因此,在同样的数据下,理论上,我们的效果肯定会比谷歌更强。

雷锋。提高机器翻译的准确性有什么困难?将来有可能完全取代人工翻译吗?

王世进:翻译涉及语言和语义,这比识别要困难一些。例如,翻译一个句子时,不同的语境可能会使整个句子表达不同。

在翻译技术方面,虽然使用了许多与神经网络相关的技术,但对语义的理解并不深刻。现在的主流技术是端到端技术,这本身就是一种黑盒技术,通过学习大量的数据来实现翻译能力。

在准确性方面,有一些改进。在大多数场景中,它可能已经满足了大多数用户的需求。例如,如果你想出国做一些简单的交流,只要是非商业性的,你可以用目前的翻译软件基本上解决问题。然而,目前在如何更准确地回答和如何做到优雅方面还存在一些技术上的困难。

雷锋。未来有什么方法可以改进?

王世进:它仍处于探索阶段。例如,一些人正在研究如何通过深度学习构建更精确的语义表示,一些人正在研究更精确的翻译模型,还有一些人正在研究深度学习模型和传统知识模型的结合。

雷锋机器口语评分。英语口语评分的产品是如何制作的?

王世进:讯飞的口头评价已经产品化了。我们从2009年开始研究英语口语评价,这种封闭体类型,如朗读,或读单词、句子和课文,受到高度赞扬。关键是看球场。你读过吗?然后,从这种封闭式问题类型到开放式问题类型,许多与自然语言相关的技术被建立起来,并且这些技术机器被用来自动地给主观问题打分。

目前,我们的英语口语自动评分技术已经在广东省的高考、江苏省的中考以及全国许多省市的英语口语考试中得到应用。

雷锋。如何给英语口语考试打分?王世进:这分为封闭式问题和开放式问题。对于封闭式问题,该机器主要提取英语口语的几个主要特征,包括完整性、发音准确性、流利性、韵律等。,然后使用学习的参数进行评分。对于开放式问题(主观问题),除了刚才提到的特征,机器应该学习评分专家的语义知识。机器将首先要求专家确定评分标准,同时,根据这个标准,它可以尝试评估投标名单,然后机器将了解人们如何从它的评分。

专访讯飞王士进:从底层AI技术解析 ,智能音箱是个伪命题吗?

我们知道不同的考试评分标准是不同的。该机器将自动从优秀教师那里学习这些基准试卷的分数,从而形成一个标准的评分模型,然后使用这个评分模型对剩余的试卷进行评分。

雷锋。判断用户的发音是否标准,给出发音建议,讯飞使用什么技术?

王世进:至于发音是否标准,讯飞在第一次测试汉语水平时就开始研究了。这项技术被称为call(注:计算机辅助语言学习,其核心是发音评估技术)。荀飞对中英文成绩做了大量的研究工作,包括判断发音是否准确、流畅、韵律是否准确。

第二,计算机视觉雷锋(公开号:雷锋):讯飞什么时候开始做计算机视觉的,为什么做计算机视觉?

王世进:应该在2010年左右开始。现在,随着深度学习的发展,语音和图像中使用的底层技术非常接近。为了完善讯飞的整个感知智能系统,并因业务需要,讯飞开始做机器视觉,其主要研究内容包括人脸识别和医学图像处理。

雷锋。声音和视觉哪个更有前途?这两者将来能结合吗?

王世进:首先,从前景来看,两个市场都特别大。就组合而言,有许多地方可以组合。例如,在我们所谓的智能安全中,如何结合人脸识别和语音识别来做各种类型的检测。在身份认证方面,也有基于人脸和声纹的普通身份认证。

雷锋。迅飞在医学领域做了什么?

王世进:讯飞在智能医疗方面有三条主要道路:

第一种方式是方便医生通过智能语音输入电子病例;

第二种方式是基于视觉的辅助电影阅读;

第三是基于医学认知帮助医生进行辅助诊断和治疗,这有点像ibm的沃森。

此外,我们还制作了一个医学检查机器人,它可以阅读大量的医学知识,包括医生的诊断和治疗计划,以及大量的医学书籍,从而形成一个相当于医学认知的大脑,使一些治疗计划可以根据病情自动形成。

雷锋。你在医学领域遇到了什么困难?

王世进:目前,智能医疗最大的问题可能来自数据,即电子病例。首先,医疗数据更具私密性,因此仍然难以合理合法地收集和获取这些数据。第二,医疗数据就像孤立的孤岛,没有联系。事实上,这也与隐私有关。不同医院之间可能存在孤立的信息孤岛,这些信息通常是不可访问的。

三.雷锋网络未来的突破与应用:与谷歌、亚马逊、蝙蝠等巨头相比,讯飞的人工智能技术是什么?

王世进:总的来说,所有公司都在自己的业务领域部署人工智能。我认为讯飞可以与谷歌这样的巨头相提并论:

首先,讯飞实际上是在做更深层次的相关业务的制造商;

第二,由于讯飞对行业有着深入的了解,所以讯飞可以很好的利用这个技术团队为行业提供一个完整的解决方案。

例如,一些互联网公司可能提供一些通用的基本产品和技术,这些产品和技术类似于构建模块。有可能在使用了这种积木后,它在工业上也会有很好的效果。但是,讯飞关注的是相关的场景,所以我们希望在每个应用场景中都达到最终的效果。

雷锋。你最近使用过什么最新的技术或算法吗?

王世进:目前还比较新。我想可能有以下几点:

第一点实际上是对一些传统神经网络模型(包括rnn和cnn)的持续优化。

第二点是无监督学习,包括刚才提到的与gan相关的东西和基于gan的各种扩展的算法,这实际上使用了很多。

雷锋。未来会有什么突破?

王世进:我个人认为有两点:

首先,在物联网时代之后,这种互动场景肯定会更加复杂。在这种复杂的情况下,我们如何实现更好的语音识别?我们相信未来需要一个软件和硬件相结合的整体解决方案。如果仅仅通过软件,在它的许多信号被叠加之后,噪音已经形成,并且没有出路。如果我们使用这种硬件,如麦克风阵列或其他方法,我们可以在信号层面做更多的处理,这可能会使语音识别效果更好。

专访讯飞王士进:从底层AI技术解析 ,智能音箱是个伪命题吗?

第二,由于自然语言处理技术正在突飞猛进,如何使用更多的自然语言技术来辅助语言理解也应该是一个突破点。例如,我们一个接一个地突破每一个领域或垂直场景,从而逐渐形成知识的积累,使机器将来有可能与越来越多的一般场景相结合。

同时,如何围绕不同行业的特点形成整体解决方案,解决实际问题,我认为这也是下一阶段要做的重点。

雷锋。人工智能未来的登陆场景是什么?

王世进:从产业和产品组合的角度来看,我们认为人工智能实际上有两种主要的登陆场景:

首先是语音技术和自然语言技术的使用,这使得我们的人机交流更加方便,并且可以达到接近人与人之间的交流效果。如今,智能家居、汽车和手机互动都是这样的场景。

二是利用语音技术、图像技术和自然语言技术的结合,与行业深度融合,学习行业领域的专家知识,解决行业中的一些经典问题。

例如,在教育领域,可以采用认知智能技术,使其能够借鉴优秀教师的评分经验,自动评估主观问题,并自动评估其口语内容。同时,我们可以收集学生的过程数据,了解这个学生的准确肖像,然后准确地向他推荐适应性学习材料。

例如,在司法领域,我们正与最高法院合作,通过自然语言处理技术协助判决。在智能医疗领域,我们也在使用智能语音、智能图像和认知技术来帮助医生诊断疾病。

雷锋原创文章。严禁擅自转载。详情请参考转载说明。

来源:搜狐微门户

标题:专访讯飞王士进:从底层AI技术解析 ,智能音箱是个伪命题吗?

地址:http://www.shwmhw.com/shxw/61955.html