本篇文章2863字,读完约7分钟
雷锋。本文作者李志勇是普兰克路十年的程序员,他有一个有趣的公开名字:左默时。这篇文章是雷锋的第一篇文章。
关于远场语音交互,盛智科技首席执行官陈告诉雷锋。“语音是最简单、最自然的人机交互方式,也是技术上最困难的交互方式,尤其是当语音交互从近场到远场再到真实场景时,必须考虑噪声、混响和回声等声学问题,以及数据差异带来的机器学习模型问题。这些是确保自由人机交互的核心技术。”
然而,互联网上关于声学和计算机科学的教育资源太少了。李志勇先生的这篇文章不仅揭示了远场语音交互的核心技术,而且深刻诠释了商业化的道路。语音交互技术人员和产品经理都值得一读。
继手机之后,外国巨头很少会同时做同样的事情:智能扬声器。所有这一切的最初驱动力来自亚马逊回声,但有趣的是,亚马逊回声根本没有进行任何功能创新。所有的事情,比如听歌、看新闻、设置闹钟、讲笑话和控制家用电器,都可以用手机来代替。唯一的改变是将语音交互模式从近场升级到远场,并将准确度和速度提升到非常好的程度。仅仅一点小小的改变似乎就创造了一个巨大的产业,那么为什么远场语音交互如此强大呢?
语音交互相当于远场语音交互。极端的说法是世界上没有近场语音交互,语音交互基本上等同于远场语音交互。事实证明,近场语音交互的各种尝试(如siri)在过去的许多年里都没有取得很好的进展,甚至简单实用的语音输入方法也没有成为主流。从应用场景来看,远场和近场的核心区别在于,在与语音设备的距离变宽之后,手就没用了。这样,它就可以完全区别于触摸屏,并能充分发挥语音的快捷优势。想象以下场景:
在微信上给一个人打视频电话。如果你使用手机,它是以下过程
如果它变成远场演讲,核心步骤将变成两步
显然,这两种场景的便利程度完全不同。理论上,这种便利也存在于近场,但核心点是,在近场很难挑战用户根深蒂固的触摸屏习惯。虽然触摸屏很受欢迎,但它显然无法挑战键盘和鼠标在笔记本电脑中的现有地位。这不仅是一个偏好的问题,还涉及到各种应用程序与特定交互模式的绑定。触摸屏很容易使用,但它不能完全在办公室使用,所以如果办公室根深蒂固,那么键盘和鼠标根深蒂固。因此,我们说语音交互基本上等同于远场语音交互。一旦它真正成为主流交互模式并培养用户习惯,它就可以在近场场景中占据一席之地(比如近场siri)。
远场语音交互的核心技术如果远场语音交互变得无处不在,亚马逊alexa(和类似产品)将成为新一代安卓。那时,整个生态将会是这样的:
此时,像alexa这样的系统覆盖了安卓和应用商店的传统角色,今天将会有新的头条,新的o2o等等。如果你想细分alexa所依赖的技术,它基本上有三层:
前端声学部分(算法+阵列)
承认
nlu
这样,远场语音交互就面临两个瓶颈:
第一个瓶颈是现在要解决的问题,即在语义仍然有限的情况下,很难个性化产品id(想想echo、airpods和其他产品),一旦拟人化用户的潜在期望无限高,你将无法制造出非常满足用户体验的产品。
第二个瓶颈是不确定性和探索性的。我们还不知道什么时候真正的智能可以在自然语言理解中得到体现,但是只有取得突破并与计算机视觉相结合,我们才能真正做出一个好的拟人机器人。
为了解决第一个瓶颈,实际上有两件事要做好:
一是不断优化前端声学算法的软硬件
一种是通过获取的数据在云中重新训练asr
这个过程可以用下面的橙色部分来概括。
上述链条看起来并不太长,但实际上非常复杂,因为它跨越了不同的学科(声学部分属于经典物理学,识别部分属于计算机科学),而且它还需要穿透硬件和软件。
在算法层面,只有前端需要处理很多经典问题,如降噪、去混响、回声消除、波束形成等。有或没有这些算法的音频信号差别很大,例如:
(具体效果试听请参考声音/演示)
即使撇开算法不谈,我们常说的麦克风阵列在硬件层面上远非标准:
上图是一个强调普遍性的麦克风阵列。它可以通过usb连接到笔记本电脑、平板电脑和手机上使用。同样的阵列也可以制成线性、L形、球形,最终目标是匹配特定的场景,从而使最终的远场交互精度达到最佳。
如果你深入研究,会有一个较低的选择,如驻极体麦克风或微机电系统,数字或模拟。
进一步挖掘,麦克风可以根据特性进一步细分,例如:
如果以上几点不能一一理顺,就不能给用户一个全面的体验。单点优化在远场语音交互中价值不大,相当于必要条件和不足条件。只有综合优化单点,才能真正解决当前产品落地中的实际问题。
(编者按:回声将在盛智科技即将推出的“远场语音互动课程”中进行分解和技术分析。那些对进一步理解感兴趣的人可以关注它。门户:实战训练:远场语音交互技术)
来自技术和商业的积极反馈几乎所有的大公司都感受到了远场语音交互背后的价值,所以他们尽了最大努力:继亚马逊和谷歌之后,微软宣布了自己的智能扬声器产品,苹果也有望宣布自己的类似产品。然而,远场语音交互的登陆速度可能比大家预期的要慢。核心要点是,来自技术和业务的积极反馈需要一定的启动期。显然,技术不容易使用,产品体验不好;另一方面,如果没有销售技术,就不会有抛光的场景,内容匹配也跟不上。这种环环相扣的状态将形成一个冷启动周期,在这个周期中,技术公司打磨自己的技术,减少产品,而产品公司接受技术现实,打磨自己的产品。这样,整个远场语音交互很可能遵循以下曲线:
这个过程可以用过去的许多商业现实来验证。例如,当iphone在2007年发布时,小米的手机上市时间晚于2011年。这期间的四年可视为智能手机的启动期。一旦这个市场启动,它就进入了一个快速增长的时期,小米手机的销量从2012年的700多万部迅速增长到2014年的6000多万部。
远场语音交互-业务正反馈技术仍处于非常早期的阶段。如果亚马逊echo(各种型号)2017年的销量真的接近2000万台,基本可以认为第一轮技术-业务正反馈已经在美国完成。在中国,同类产品的销量仍在数万和数十万左右,这种来自技术和商业的积极反馈还远远不够。
当然,这不是一件坏事。在一个固定模式的市场中,后来者没有机会;只有在这个充满未知的领域,企业家才能真正拥有颠覆性的机会。如果我们回到20年前,联想和门户与今天的英美烟草相比是巨无霸公司。我们需要资源、渠道、渠道和人,但有趣的是蝙蝠终于崛起了。
移动电话的触摸屏已经将许多人塑造成了低头脑的人,而远场语音交互估计将塑造许多与机器交谈的人。在那个时候,语言不再仅仅是人与人之间互动的手段。
雷锋网注:目前,雷锋网mooc.ai(公开号:雷锋网)推出了一个由语音交互专家、声音智能技术首席技术官冯大航教授的远场语音交互技术实践培训班,分析语音信号处理、麦克风阵列信号处理、语音识别等方面的关键技术和实践技能。为了鼓励更多的人投资语音领域,盛智科技为学生提供了价值1999元的sai_mica_41t-ui开发版和usb版,以加强实践。这门课将于5月17日开始。感兴趣的学生可以点击链接注册。
(结束)
雷锋的特别贡献。严禁擅自转载。详情请参考转载说明。
来源:搜狐微门户
标题:亚马逊 Echo大获成功,远场语音交互技术在其中究竟扮演了什么角色?
地址:http://www.shwmhw.com/shxw/60999.html