本篇文章1737字,读完约4分钟

离开哈默科技的首席技术官后,钱晨加入了数字家庭,参与了视频通信设备的研发——见h1个人,做他以前的工作——声学,核心工作是远场语音识别。

远场语音识别也是亚马逊回声的核心技术之一。《回声报》的走红点燃了整个市场,但钱晨告诉雷锋,他不认为这是“最佳时机”。

1998年,钱晨获得中国科学院水下声学博士学位。长期以来,他在北京的摩托罗拉R&D中心担任电子和声学工程师。

他现在担心的是,“聪明说话者”的概念会在一百个学派的背后发臭,就像他在玩石头的时候从来没有触动过田黄一样,因为一提到田黄,他的第一反应就是装出来的。

以下是钱晨的自我报告,由雷Feng.com(公开号:雷锋网)编辑。

假设中国没有高级语音处理器。因为我们专业每年毕业的学生不到50人,众所周知,这个水平并不太高。但是美国人更有趣。美国人比我们更精通物理。当他们对物理更深入时,他们可以解决一系列问题。

麦克风行业有两个学派。一是你有六七个麦克风(亚马逊回声),叫做麦克风阵列;第二种类型是“谷歌主页”。从这个角度来看,无论制造商如何讲述故事,他们都无法逃避这两个问题。

麦克风阵列类型的缺点是夹角窄。

我们先来谈谈发射前的“波束形成”。波束形成实际上是在20年前完成的。军事工业中的声纳和微波中的智能天线都是这种技术。

为什么当时每个人都使用波束形成?主要原因是,在进行电路操作时,各种放大信号都会被处理,而波束形成本身就是一种放大信号,我们称之为空增益。空的收益也有一个公式,根据这个公式可以进行许多技术创新。

亚马逊在做回声时使用了这项技术。这项技术体现在产品中,也就是说,它可以识别声音传来的方向,然后过滤掉旁边的声音,从而增加所需声音在空之间的增益。与电路相比,该信号放大倍数大,信噪比好。经过放大后,信号非常清晰。

麦克风阵列使用该阵列形成波束角度为60度的波束。

“两个小麦”不存在夹角窄的问题。它也有空的信息,可以区分声音是来自左边还是右边,但它不会增加放大倍数。

比较这两个学派,时差可以解释一些问题。亚马逊在四年前就在回声上使用了波束成形技术,而“双麦”在去年也使用了,那是谷歌的主页。因此,这两种技术的应用成熟度相差三到四年。

再往下走到设备端。

首先要解决的问题是噪声消除。例如,当一个人和另一个人说话时,声音从四面八方传入耳朵,设备也是如此。那就有问题了。一些方向听起来更快,而另一些听起来更慢。当它们加在一起时,会产生混响或噪音。

因此,在麦克风识别出声音后,剩下的就是消除噪音,这样声音信息就足够干净,让“另一方”听到,然后计算机就可以处理它。

现在我们可以看到,柯生勋、云之生、Esprit和科达讯飞都说他们有完整的解决方案。事实上,“完全解决方案”可以解决刚才提到的噪声消除和云处理。

只有解决了设备中的噪声消除问题,信息才能传输到下一级进行语音识别。

中国最好的语音识别是iFlytek。他们最喜欢做的是,每当有人在那里说话,他们就把它翻译成你的话。它做得很漂亮。但是这些话是什么意思呢?没关系。因为这已经达到了语义上的认可,微软和亚马逊在这方面做得最好。

总之,语音设备技术可以分为三个部分:噪声消除、语音识别和语义识别。在语义识别方面,外国人比中国人好。

对于用户来说,在他们意识到一些事情之前,有必要把这三个部分都做好,但是语义识别是一件更困难的事情,它只能由大公司来完成,而不能由小公司来完成。

我现在认为“智能扬声器”要坏了,也就是说,设备还没有准备好。如果降噪处理不当,HKUST的IFlytek算法将是愚蠢的,识别率将会下降,更不用说语义识别了。

很少有人注意到这条信息。我国已经建立了一个实验室,希望制造商将自己的语音设备放在实验室进行认证。

它就像一部手机。手机制造商会说他们的产品很好,但最终他们必须通过3c标准,并需要认证。那么当每个人都说它们是好的时候,实验条件是什么呢?环境条件如何?他们不能回答。

声学测量远比电磁场测量复杂,能否适应复杂的物理环境是反映设备水平的地方。消费者不会为那些总是说“能识别仪表”的人买单。

雷锋。网站扩大阅读:“亚马逊的秘密部队和亚马逊呼应,这几乎成了一个笑话。”

雷锋原创文章。严禁擅自转载。详情请参考转载说明。

来源:搜狐微门户

标题:钱晨:为什么“智能音箱”可能会被做臭?

地址:http://www.shwmhw.com/shxw/60117.html