TRANSLATION SOLUTIONS
News Detail

神经机 器翻译研究产出于2018年上半年兴起

Issuing time:2019-01-12 00:00

随着年度神经机器翻译(NMT)成为主流,2017年将被铭记。然而,这并不 意味着它是一个“已解决的问题”。当然,远非如此,因为任 何能够使用先进的在线机器翻译门户网 站精通两种语言的人都可以证明这一点。

然而,有数百 甚至数千名研究人员在研究这个问题。在2018年中期,NMT研究与 去年同期相比增长了115%。2017年1月至6月,Slator在康奈 尔大学的自动化在线研究分发系统Arxiv.org上发现了91篇与NMT相关的研究论文(标题或 摘要中的关键词“神经机器翻译”)。在今年同一时期,这一数字飙升至196。

正如我 们之前提醒过的,有一些误报和实例,其中NMT被提及 作为一个活跃的研究领域或用于实验来测试与更大领域相关的假设,例如自 然语言处理甚至机器学习和一般的深度学习。

还有重新提交的问题,其中先 前发布的研究论文的靠前版更新了新信息或更正。虽然这 些论文本身并不是与众不同的,但仍然 会在该领域开展研究活动。

轻微减速

在2018年春天疯狂的春天,由一些 世界上较大的科技公司发表了数十篇论文后,2018年7月的提 交活动与前几个月相比有所放缓。

7月份仅提交了26篇研究论文,其中只有9篇与NMT直接相关,并且不 是之前提交的更新版本。

越来越 多的研究论文提到NMT作为先 进的神经网络技术的基准。


这对NMT研究人 员来说是个好兆头,但这也意味着在搜索Arxiv数据库 时会出现越来越多的误报。此外,随着研 究人员更新他们的论文,以前出 版物的重新提交,更新版 本的数量也在增加。

不断发展的研究方向

随着时间的推移,自NMT成为主流以来,一般研 究课题已经发生变化。2017年11月1日至2018年2月14日期间对Arxiv的研究 主要集中在几个主要议题上,即提高 输出质量和解决培训数据限制(例如低资源语言)。

看看哪些公司参与了2018年2月15日到2018年4月底之间的哪些论文,看起来 主要参与者正在采取完全独立的研究方向并研究他们自己的研究课题。

例如,Facebook AI Research(FAIR)团队正 忙于解决资源匮乏的语言问题,这是Facebook的实际挑战,2017年达到了20亿用户标记,每天需要翻译45亿次。

与此同时,亚马逊 正在寻求更好的运营效率,这是有道理的,因为他 们的产品面向云平台的企业用户以及LSP,他们可以从改进的NMT流程和速度中受益。

亚马逊 研究的一篇论文是“约束解码”,这种方法允许NMT一致地 翻译特定的单词或术语。问题是,对于NMT引擎需 要记住的每个单词以便转换特定方式,整个系统会慢一点。

另一方面,谷歌似乎专注于提高NMT产量,尽管这 个搜索巨头像往常一样关注着几乎所有的馅饼。Google Brain研究人 员与微软就低资源语言,机器阅 读和问答以及无监督学习共同撰写了出版物。

谷歌甚 至提出了改进的模型,这些模 型基本上是现有NMT引擎的混合体。据谷歌称,这些混 合动力车的表现优于先进的,包括他 们自己的谷歌翻译变压器模型。

仍在崛起,已经影响到行业

NMT仍在兴起,研究由 学术界牵头并由企业方面帮助,正在以 健康的步伐前进。实际上,2018年上半 年显示了研究界的活跃程度,2018年5月将4月份视为NMT 繁忙的月份。

NMT的竞争也蔓延到开源。Systran全球首席技术官Jean Sellenart在2018年伦敦SlatorCon期间评论说,“过去两年中,每个月都有大约两个新的NMT开源项目。”

游戏中 肯定会出现一种雪球效应。该技术 提供了这样的广度和深度,即使是 竞争公司有时也会共同研究相同的研究。“世界上 没有公司可以复制250篇论文,只是为 了检查它们是对还是错,”Senellart说。“这是今 天开源必不可少的原因之一。”

越来越多熟悉的名字

在2018年5月,6月和7月,更熟悉的名字进入Arxiv研究论文。谷歌,微软和 亚马逊等常见的播放器当然也存在,以及Systran,Ubiqus和SDL等语言行业名称。

中国在 电子商务巨头阿里巴巴和互联网公司腾讯都发表论文方面都很有代表性 - 甚至搜 狗也发表了一篇论文,尽管并不是专门针对NMT。

近,在2018年7月,腾讯直接投入生产,采用实验方法检测NMT翻译中的问题,而不依赖于参考翻译。该BLEU(双语评估替补)的度量 采用了类似于参考译文得分MT输出,但一直 熬到下火近不足够供NMT。

“我们的实验结果表明,我们的 新方法可以在真实世界的数据集上实现高效率,”腾讯的抽象阅读。“我们在WeChat的开发 和生产环境中部署所提算法的成功经验,微信是一个拥有超过10亿月活 跃用户的信使应用程序,有助于消除我们NMT模型的众多缺陷,监控实 际翻译任务的有效性,并收集内部测试案例,产生高度的行业影响。“

通过研 究提高准确性和充分性,提高运 营效率和文件层面背景,加快了NMT产出的竞争。低资源 语言也成为许多研究人员和日本团队(更突出的是NICT和NAIST)以及中 国加快步伐的优先事项。

在商业世界中,整个供 应链中正在迅速感受到更高质量的机器翻译的影响,并且已 经影响了单位价格预期。有关神 经机器翻译当前新技术的专家分析和见解,请购买Slator的神经机器翻译2018报告。


Share to:
DOC TRANSLATION SOLUTIONS
Service Line: 400-021-7080 Mobile: 0086-17702105707
Wechat: doctranslation
Skype: doctrans@foxmail.com (ID: live:doctrans_5) E-MAIL: translation@ ADD: R416, No. 201 XINJINQIAO RD., PUDONG NEW AREA, SHANGAHI CHINA 201206
Name
*
Phone
*
E-mail
*
Requested Service
*
Remarks
Verification code
 Change Image
*
Let's Talk
友情链接:    双彩论坛   彩客彩票app   下载app送18元彩金   球探网主页   那个彩票平台靠谱