本篇文章2100字,读完约5分钟

近日,网易正式宣布,网易自主开发的神经机器翻译技术已经正式上线。网易内部人士表示,这个项目是丁磊亲自质疑的。

有道公司诞生于2008年,其核心业务是搜索。2013年剥离搜索业务后,有道翻译单独经营(包括有道词典、有道翻译等)。)获得了7亿用户,这是巨大的。

对此,雷锋同志采访了有道的首席科学家段,谈了有道在机器翻译领域的研究和探索。

自2008年正式推出以来,已经过去了将近十年。在过去的十年里,陶一直致力于中外翻译的研究。通过不断提高机器翻译的质量,它吸引了大量的用户,积累了大量的语料库和数据。

尽管如此,机器翻译的质量仍然不能令人满意。随着人工智能技术的发展,深度学习逐渐应用于机器翻译领域,神经网络翻译模型开始被使用,有道也将其机器翻译能力提升到了一个新的高度。用段的话说:

神经网络翻译是人工智能和深度学习在机器翻译领域的具体应用。它是目前最先进的机器翻译技术,它带来的翻译质量的提高是过去十年的总和。

通过机器实现翻译一直是人类的梦想。在计算机诞生之前,人类曾设想使用自动化方法将单词从一种语言翻译成另一种语言。计算机诞生后,人类开始希望制作一个能够实现自动翻译的程序。早期的尝试并不成功,统计翻译模型的出现带来了机器翻译领域的第一次飞跃。

统计翻译模型不依赖人工规则,而是从大量平行语料库中总结语言规则,从而获得翻译结果。然而,它也有许多问题。最大的问题是统计翻译模型是一个由许多部分组成的模型,如分词、短语、对齐、序列调整等。这些组件独立存在并履行各自的职责。每个组成部分都完成了它的预期任务,最后“拼凑”在一起,产生了一个“公平”的翻译结果,远非“令人满意”。但是两年前,无论我们熟悉谷歌翻译、百度翻译还是其他翻译产品,我们基本上都使用统计翻译模型。

专访网易有道段亦涛:丁磊亲自过问的神经网络翻译技术到底是什么?

当神经网络模型用于机器翻译时,这一切都改变了。神经网络翻译可以对整个句子进行编码,充分利用语境信息,判断多义词的含义,生成更自然的译文。最直观的一点是,神经网络翻译的句子结构完整,词序更符合人类语言使用习惯,翻译结果流畅。

神经网络翻译原理

这样,除了用户在实际使用中的感知,ibm在2002年建立了一个更合理的标准,叫做bleu(双语评估研究中)值。根据维基百科,bleu是一种评估机器翻译文本质量的算法。该算法的核心价值在于机器翻译越接近专业翻译,质量越高。

bleu的具体方法是将候选译文与参考答案进行比较,将单个翻译片段(通常是句子)与一组高质量的参考译文进行比较,判断单词的重叠部分和词序,重叠越多,得分越高。然后,通过整个语料库平均评估整体翻译质量。

在机器翻译领域,神经网络翻译模型逐渐取代了统计翻译模型,其中一个重要原因是前者的bleu值有了很大的提高。

除了与其他同行的纵向比较和横向比较,bleu值也是一个重要的参考标准。根据官方给出的数据,在英语学习场景中,神经网络翻译和汉英翻译的英语翻译的bleu值领先同行7个百分点;另一方面,在新闻文章翻译场景中,英文翻译的bleu值超过同行6个百分点,而中文翻译的bleu值超过8个百分点。

神经网络翻译中的汉英对比

之所以能比同行高出6-8个百分点,段认为的优势在于两个方面:

关注中文,多加关注。针对汉语特有的语言现象,包括汉语分词等,已经进行了许多优化。

这部词典近十年来积累了大量数据。依靠词典积累的语料库和用户数据,它可以在英语学习的翻译场景中做到最好。

“效果是好的”,但段也承认,“在没有完整的理论基础的情况下,实践需要大量地依靠经验和探索。效果是最难的指标,如果理论是完美的,如果它不起作用,对我们来说就没有意义了。

业内有人曾经打了个比方,“深度学习(包括神经网络模型)就像炼金术,把各种材料放在一起,然后掌握温度,这样通过不断的试验就可以达到最好的效果”,这也可能反映出在没有完整的行业理论基础的情况下,实际的困难是每个人都只能探索,这是非常不确定的。不过,段目前对有道所取得的效果还是比较满意的。

当然,这离不开强大的技术团队。段表示,该团队将继续关注机器翻译领域,并将在未来重点关注三个方面:

调整模型和算法

获取更多数据

不同领域的适应

雷锋。(公开号码:雷锋。com)获悉,有道神经网络翻译技术已应用于有道词典、有道翻译器、有道翻译网页、有道电子阅读等产品,覆盖7亿多用户。

摘要

在采访的最后,还向雷锋讲述了他加入网易的经历。段在北航大学主修飞机设计,专注于隐身技术,与计算机无关。但当我去加州大学伯克利分校攻读博士学位时,由于我的兴趣,我转向了计算机科学,我的阅读方向是分布式计算领域的隐私和加密。对于这种变化,觉得段的难度并不像想象的那么大,因为他们在工程上都是相通的,其次,他有数学的优势。

专访网易有道段亦涛:丁磊亲自过问的神经网络翻译技术到底是什么?

在柏克莱攻读博士期间,段结识了现任网易首席执行官的。

当时,周峰应丁磊的邀请,正在考虑加入网易开发有道项目。为此,邀请段加盟网易。从2008年到2017年,近十年来,段对的热情持续不减。他说:“我仍然喜欢它。”。

业内许多人不知道网易正在研究铝。段表示希望有更多的艾尔人才加入进来。

雷锋原创文章。严禁擅自转载。详情请参考转载说明。

来源:搜狐微门户

标题:专访网易有道段亦涛:丁磊亲自过问的神经网络翻译技术到底是什么?

地址:http://www.shwmhw.com/shxw/61792.html