当前位置:主页 > AI >

调戏微软文言文AI翻译:“永不舍汝”、“其母之”是什么鬼?

发布日期:2021-10-12 23:55   来源:未知   阅读:

  虽然翻译出来不是很有文学性,但AI正确理解到了“望着同一个月亮”这层意思。

  为了更好地评估微软翻译的能力,这里请出老牌选手百度翻译,让它们比试一下。

  果然如此,看来微软翻译在用整句进行训练的时候掌握了句与句之间的转折关系,后来不知怎么又算到前半句里了。

  微软翻译虽然多学会了一个互文,但毕竟还是年轻选手,对句子之间关系的处理需要再练习。

  虽然也特别训练了“微软”和“电脑”这种现代才出现的名词,但遇到“一九七五年”这种古代不用的表达就不行了,前老板比尔盖茨的名字也没认出来。

  说到现代的表达方式,其实这个翻译工具还可以倒过来用,把白话文译成文言文。

  比如诸葛丞相那句“我从未见过有如此厚颜无耻之人!”要是用文言文说出来是不是就更对味了?

  百度是最早用机器学习做文言文翻译的,还申请过相关专利:“一种在白话文与文言文之间进行文体转换的方法和设备”。

  相关文言文翻译的模型也不少,从机器学习、RNN到Transformer都有,像微软这次采用的,就是Transformer模型:

  相比于其他主流语言(中文现代文、英文等),文言文可以说是训练数据极少,同时还存在句式变换、繁简混合等问题,造成翻译的生硬。

  其一,针对数据量不足,利用相同字词进行数据合成和增强。文言文和现代文有一些相同含义的字词,如果对这些词语进行召回、对齐,再扩展到短词短句,就能合成大量可用的训练数据。

  其二,针对句式变换不灵活,对数据格式进行变形,提升鲁棒性。文言文断句和现代文不太一样,为此研究人员通过数据格式变形,来扩大训练数据量,让模型也学会翻译类似语句。

  其三,针对字体识别不力,用简繁混合数据训练,提升模型识别能力。为了让机器学习能同时识别简繁混合的文言文,研究人员在训练模型时会将简体中文和繁体中文数据混合在一起进行训练,确保翻译模型不出错。

  其四,针对现代文的“新词”,专门建立相关数据集和识别模型,确保不“乱翻译”。为了避免模型在遇到现代文中的“高铁、电脑、互联网”这种词时出现混乱(例如将高铁翻译成高处的铁块),研究人员建了一个模型,专门用来识别这些新词。除了新词,也针对博客、论坛、微博等新文体进行训练。

  这次微软的文言文翻译是直接整合到了Bing翻译里,难道还可以把文言文翻译成外语?

  看来简单句没有难倒AI,我们提升一下难度,用一首比较著名的英文诗“当你老了”试试:

  不过,微软也说过,这次主要实现的是文言文和现代文互译,说明其他语言在翻译成文言文之前,应该也需要先翻译成现代文。

  破案了,微软的英译中确实不太行……可能也是导致英文翻译成文言文出现失误的原因。

  顺带一提,虽然正经的英文字句翻译得不太行,不过在这种字词的翻译上……竟然还有点文艺?

驱动中国,国内知名的科技媒体,24小时滚动报道国内外最有价值的科技新闻,移动通信,IT互联网业界,数码产品,家电及智能穿戴,区块链,VR,共享经济,财经,人工智能,黑科技产品资讯,为用户提供及时权威的科技资讯。