认识达内从这里开始

认真做教育专心促就业

人工智能在翻译界的较量（二）

发布：青岛达内
来源：互联网
时间：2018-03-17 15:59

如果你对上面的内容大概有所了解,我们再看一段BBC上的新闻:

Universal Music Group's executive vice president of digital strategy, Michael Nash said: "Together, Facebook and UMG are creating a dynamic new model for collaboration between music companies and social platforms to advance the interests of recording artists and songwriters while enhancing the social experience of music for their fans."

青岛达内培训

    在有道和谷歌的翻译中,有两个地方有明显出入:
    "recording artists"谷歌翻译成"录音艺术家",有道是"唱片艺术家";"for their fans" 谷歌翻译成"为他们的球迷",有道是"为他们的粉丝"
    通过结果可以看出,在谷歌的平行语料中,"recording "被翻译成"录音",而在有道的语料中"recording "或许既有"录音"的意思,也有"唱片"的意思,但由于和上下文的结合,有道更能理解此处应该翻译为"唱片"更准确.
    所以最终的结果就是,有道翻译更懂中文.
    在翻译中,有两个基本的维度是必须考核的:忠实度和流利度.我们常说的"信达雅"中,"信"和"雅"都是属于忠实度的层面,"达"则是流利度的层面.而语料准确与丰富与否,不仅仅影响着忠实度,还影响着句子的流利度.
    还是上文的句子,"for their fans在原文中放在了句末.在翻译结果里,有道把"为他们的粉丝"往前提,而谷歌"为他们的球迷"则依然放在了句末.
    在英语语法中,介词短语如果不是表示强调的情况下,的确一般放在句末.但是在中文的表达里,则会提前.
    这种关于语序的调整,神经网络翻译模型也会通过大量的数据进行学习、理解.也就是说,有道翻译的神经网络模型在其训练的语料中,已经大量存在把介词短语往前提的情况,所以当再次遇到这类句子翻译的时候,它就明白应该把"for their fans"往前提.
    句子就像蛋糕怎么"切"决定翻译是否通顺
    除了语料的问题,在翻译中还一个常见的问题,也就是如何对句子进行"断句",专业术语叫做"处理单元".
    我们在初中学古文的时候,老师常会让我们在翻译之前,先把句子进行断句,分成多个部分然后再进行翻译.
    神经网络翻译模型也是一样,再对一个句子进行翻译之前,它首先会对这个句子进行"断句",而"断句"的准确性,会直接影响到后面的翻译结果.
    再来看一个例子,如何翻译"小美美美地睡了一觉"呢?
    正常人的翻译步骤是"小美-Xiaomei ,美美地-good/nice,睡了一觉-had a sleep",组合调序得出的翻译结果是"Xiaomei had a good sleep."
    那机器翻译地结果呢?
    谷歌翻译:"little America beautiful sleep"
    有道翻译:"little beauty had a good sleep"
    可以看出,有道翻译基本遵循了人类的逻辑进行分词,而谷歌翻译则是一个字一个字的进行分词.谷歌曾在公开资料表示他们是逐字处理,而实际上,这种逐字的处理问题在于,一旦遇到复杂的内容,翻译内容就会造成损失,而这种损失反应在结果中会被放大,造成内容丢失或不通顺.
    人脑vs机器的"断句"模式
    领域适配技术让机器彻底战胜人类?
    除了语料、"断句",还有一个因素会很大程度上影响翻译的质量:领域的问题.
    打个比方说,一个经常写网络小说的作家,让他去写纯技术文章,他可能无从下笔,因为大家所涉猎的领域不同.同样一个经常翻译新闻的模型,突然遇到一段医学内容,也可能会翻译得非常蹩脚.
    在判断一个模型的翻译能力时,主要有三个维度:种类、领域和质量.
    在这个象限中,人类处于 "高质量、高领域、低种类",例如小方是中国人、二十岁、普通话一级甲等、涉猎领域广泛,但他或许只会说中文,其他语言一概不通.
    而机器处于"高质量、低领域、高种类",因为机器有大量的数据和语言库,市面上随便一个翻译软件都至少能翻译10种以上的语言,并且随着人工智能的发展,机器翻译的质量大幅提升.但所涉猎的领域明显没有人类多,因为每个领域都需要不同的语料训练和模型.
    所以,如果机器要全面战胜人类,必须在领域上下功夫;而人类要战胜机器,必须在种类上下功夫.显然,后者有点难以做到,因为没有哪个人可以学会世界上所有语言.
    但机器在领域上开始有了新的突破,在有道神经网络翻译中,工程师们已经开始让系统能够自动适配不同领域的内容,称之为"领域适配技术".
    在有道翻译中,系统会默认给出一种翻译结果.但这是否是最优结果呢?未必.因此系统在默认结果基础之上,系统还给出了 "领域适配"之后翻译结果,这就很大程度上的提高了翻译的准确性.
    比如下面这段话,是一段专业领域的内容:
    "The converter is installed at the correct position when the special tool locating pin can be inserted through the opening in the converter bell housing in front of the converter . "
    在有道翻译通用模型中,翻译结果并不是的,而点击"更多翻译结果"之后,针对机械领域适配过的模型,翻译出来的效果更好
    人工智能的热潮还刚开始,对于机器翻译而言,人工智能为其打开了一扇新的大门,但是未来"机器翻译"是否能够更聪明,并彻底超越人类,其实还有很长的一段路要走;

而无论是有道还是谷歌,他们的每一次技术革新和进步,都将为整个人类的生产、生活带来巨大的便利;比如现在出国旅行不会英语,就完成不用担心,直接用翻译软件就能解决.

本篇文章是有青岛达内培训为您呈现,希望给您带来更多更好的文章

更多青岛IT培训相关资讯,请扫描下方二维码