Google 翻译的"汉译英"错误率降低 60%,是怎么算出来的?

第一步。

从维基百科和新闻网站上,随机选取 500 个中文句子,作为被评估内容。

第二步。

找人工翻译,将500个句子翻译为英文。

第三步。

将旧的机器翻译结果、新的机器翻译结果(神经网络)、人工翻译的结果、,这三份“考卷”,拿给熟练使用中英双语的真人判卷员。

第四步。

熟练使用中英双语的真人判卷员,给每张考卷的每个句子,进行打分。分数为 0~6 的整数,0代表翻译结果“狗屁不通”,6代表翻译结果“精彩绝伦”。

第五步。

出成绩了,旧机器翻译每个句子平均得分 3.694,新机器翻译得到 4.263 分,人工翻译得分 4.636 分。别忘了满分是 6 分哦。

第六步。分别计算,跟人工翻译的水平相比,“误差率”(错误率)是多少。

旧机器翻译:(4.636-3.694) / 4.636 = 20%

新机器翻译:(4.636-4.263) / 4.636 = 8%

第七步。算“错误率”降低了多少。

(20%-8%)/ 20% = 12% / 20%= 60%

第八步。算算“准确率”提升了多少。

(4.263-3.694)/3.694 = 15%

第九步。

为什么用户兴奋,媒体兴奋,专家没那么兴奋?翻译公司商鹊网CTO魏勇鹏告诉雷锋网:

这里面两个主要的“陷阱”:

1、从3.6提升到4.2,和从4.2提升到4.6,这两个所需要付出的努力程度,后者可能是前者的10倍以上都不止,但Google就简单的线性计算为缩小了60%的差距。

2、中英的人工翻译,得到的评分也就只是4.6,比英西的人要低得多,这点说明用来作为基准的“人”,未必是靠谱的,以它为基准来评估,也未必是不靠谱的。

其实还有第三点,别忘了卷子是 Google 自己出的。

注意用于做评测的数据是:500 randomly sampled sentences from Wikipedia and news websites。这些都是互联网上语料最充足的内容类型。也就是机器最擅长的内容。

第十步。

行业认可的一种机器翻译成绩评估,是 WMT 的 BLEU Score 比赛。Google 这次发布的论文,也用了 BLEU Score 的分数。雷锋网没找到汉译英的部分,但是有英译法的数据,从 37 分提升到 41.16 分。

第十一步。很多人类患上“围棋”恐慌症了。

Google 首次将神经网络技术,成功应用到翻译产品上,上线后使得翻译质量有了明显提升。但是媒体报道中的标题“错误率降低 60%”,甚至某种语言是 “85%”,很容易让普通人以为蒸汽机革命来了……事实上,微软、百度等大公司之前也在翻译产品中使用神经网络技术,但没有引起大的传播。

究其原因。一位不具名的评论者告诉雷锋网,之前很多人看到 Google 的电脑在围棋上战胜了人类,心理上受到了冲击,自然而然认为  Google 强大的人工智能技术,会颠覆很多行业。尤其是那些当初认为机器在围棋上战胜不了人类的人类,现在又对“人工智能”过于乐观了。

第十二步。北京时间9月29日早上,论文作者之一,Google Brain 团队的陈智峰,通过远程视频接受了 3 家中国媒体的采访。他表示,这次 Google 比较特别的地方在于,训练过程利用了大量的分布式计算,所以才能把语言模型很快训练出来。“差不多一星期才能处理一个方向的语言模型。但是Google有大概一万个语言的模型需要训练,既需要我们有巨大的资源投入,也在不停地改进算法。 ”

对于机器翻译取代人工翻译的问题。陈智峰认为,规则的文本,比如医学论文,比如时事新闻,大家更注重信息的传达,在修辞方面或情感方面的传达可以弱化一些。“机器翻译就能够很快地帮助你获得信息,这是机器翻译目前对人类的主要帮助。”

他说,“目前来讲,我觉得人与人之间的自然的沟通,通过机器翻译还是有很大的工作需要做。做到真正能够让你感觉到跟你说话的是个人,而不是机器,还是有很多年需要努力的。”

第一步。

从维基百科和新闻网站上,随机选取 500 个中文句子,作为被评估内容。

第二步。

找人工翻译,将500个句子翻译为英文。

第三步。

将旧的机器翻译结果、新的机器翻译结果(神经网络)、人工翻译的结果、,这三份“考卷”,拿给熟练使用中英双语的真人判卷员。

第四步。

熟练使用中英双语的真人判卷员,给每张考卷的每个句子,进行打分。分数为 0~6 的整数,0代表翻译结果“狗屁不通”,6代表翻译结果“精彩绝伦”。

第五步。

出成绩了,旧机器翻译每个句子平均得分 3.694,新机器翻译得到 4.263 分,人工翻译得分 4.636 分。别忘了满分是 6 分哦。

第六步。分别计算,跟人工翻译的水平相比,“误差率”(错误率)是多少。

旧机器翻译:(4.636-3.694) / 4.636 = 20%

新机器翻译:(4.636-4.263) / 4.636 = 8%

第七步。算“错误率”降低了多少。

(20%-8%)/ 20% = 12% / 20%= 60%

第八步。算算“准确率”提升了多少。

(4.263-3.694)/3.694 = 15%

第九步。

为什么用户兴奋,媒体兴奋,专家没那么兴奋?翻译公司商鹊网CTO魏勇鹏告诉雷锋网:

这里面两个主要的“陷阱”:

1、从3.6提升到4.2,和从4.2提升到4.6,这两个所需要付出的努力程度,后者可能是前者的10倍以上都不止,但Google就简单的线性计算为缩小了60%的差距。

2、中英的人工翻译,得到的评分也就只是4.6,比英西的人要低得多,这点说明用来作为基准的“人”,未必是靠谱的,以它为基准来评估,也未必是不靠谱的。

其实还有第三点,别忘了卷子是 Google 自己出的。

注意用于做评测的数据是:500 randomly sampled sentences from Wikipedia and news websites。这些都是互联网上语料最充足的内容类型。也就是机器最擅长的内容。

第十步。

行业认可的一种机器翻译成绩评估,是 WMT 的 BLEU Score 比赛。Google 这次发布的论文,也用了 BLEU Score 的分数。雷锋网没找到汉译英的部分,但是有英译法的数据,从 37 分提升到 41.16 分。

第十一步。很多人类患上“围棋”恐慌症了。

Google 首次将神经网络技术,成功应用到翻译产品上,上线后使得翻译质量有了明显提升。但是媒体报道中的标题“错误率降低 60%”,甚至某种语言是 “85%”,很容易让普通人以为蒸汽机革命来了……事实上,微软、百度等大公司之前也在翻译产品中使用神经网络技术,但没有引起大的传播。

究其原因。一位不具名的评论者告诉雷锋网,之前很多人看到 Google 的电脑在围棋上战胜了人类,心理上受到了冲击,自然而然认为  Google 强大的人工智能技术,会颠覆很多行业。尤其是那些当初认为机器在围棋上战胜不了人类的人类,现在又对“人工智能”过于乐观了。

第十二步。北京时间9月29日早上,论文作者之一,Google Brain 团队的陈智峰,通过远程视频接受了 3 家中国媒体的采访。他表示,这次 Google 比较特别的地方在于,训练过程利用了大量的分布式计算,所以才能把语言模型很快训练出来。“差不多一星期才能处理一个方向的语言模型。但是Google有大概一万个语言的模型需要训练,既需要我们有巨大的资源投入,也在不停地改进算法。 ”

对于机器翻译取代人工翻译的问题。陈智峰认为,规则的文本,比如医学论文,比如时事新闻,大家更注重信息的传达,在修辞方面或情感方面的传达可以弱化一些。“机器翻译就能够很快地帮助你获得信息,这是机器翻译目前对人类的主要帮助。”

他说,“目前来讲,我觉得人与人之间的自然的沟通,通过机器翻译还是有很大的工作需要做。做到真正能够让你感觉到跟你说话的是个人,而不是机器,还是有很多年需要努力的。”


相关内容

  • [工具书与文献检索]作业-3(答案)
  • <工具书与文献检索>作业-3 专业.班级: 学号: 姓名: 重要提示:这是第3个作业, 作业--3内容: 1. 什么是词典? "字"与"词"有何区别?字典与词典有何区别? 词典,也叫辞典,是根据一定的编纂目的,汇集某种语言的词汇加以解释.编排,以供 ...

  • 考托达人谈IBT写作如何取得本质进步
  • 智 课 网 托 福 备 考 资 料 考托达人谈IBT写作如何取得本质进步 很多人一直苦于找不到好的方法而处于事倍功半的窘境,苦苦练习了2个月才发现自己的写作语言能力还是没有什么本质性的进步.最后考试的时候,或自己准备模板生搬硬套,或是考前强行背诵以图当场复制等等,虽然洋洋洒洒的写了不少字,但殊不知正 ...

  • 外国大学生怎么学外语
  • 看到过这样一个帖子,转载过来,写句编者按:美国名校里的美国人学外语的精神连北大高材生也自叹不如.也许其他领域也是一样吧,多付出,肯定会有回报!!努力学习就从坚持读完这篇长贴开始吧(我编辑过).我们中国人聪明的大脑,要是能在加上西方大学生的那种刻苦,从核心技术层面的"赶英超美"绝对 ...

  • 提高写作的方法
  • 词汇部分: 先来看看ETS官方评语针对低分作文语言方面缺陷的说明吧:weak control of sentence structures and language usage, with errors that often result in vagueness or lack of clarit ...

  • 毕业论文查重检测原理及反抄袭办法
  • 关于毕业论文抄袭检测原理及反抄袭检测办法 在每个学生毕业时都要写一篇学位论文,现在学位论文的过关不仅是要求过答辩就OK,还要通过学术不端检测!自从2008年各高校使用中国知网论文学术不端检测系统后,每年各高校都会使用该系统对每届毕业生的论文进行一下测试,此系统不是软件,不是下载一下就可以用的.软件在 ...

  • 北京林业大学翻译硕士考研真题,考研经验,考研招生信息
  • 北京林业大学翻译硕士考研真题,考研经验,考研招生信息院校名称报录比推荐参考书备注 1-叶子南<英汉翻译案例讲评>,北京:笔译22人,不招收同等学力. 外文出版社,2011. 2-李长栓.施晓菁<汉英翻译案例讲 评>,北京:外文出版社,2012.5- 北京林业大 学1:53-& ...

  • 毕业论文无敌修改宝典(硕士.本科通用)
  • 关于知网学位论文检测系统的说明 常见的修改方法总结: 1.替换关键字 2.打乱句子结构 3.改写标红的句子 4.不要删除标红的句子 5.关键字用同义替换 注: 修改建议 1.知网学位论文检测为整篇上传,格式对检测结果可能会造成影响,需要将最终交稿格式提交检测,将影响降到最小,此影响为几十字的小段可能 ...

  • 论文重复率修改方法总汇
  • 论文重复率修改方法总汇 方法归方法,不具绝对性,有,加注释.加字.换标点等并不管用,改后再测是正道,避免被学 校检测出有问题 在每个学生毕业时都要写一篇学位论文,现在学位论文的过关不仅是要求过答辩就OK,还要通过学术不端检测!自从2008年各高校使用中国知网论文学术不端检测系统后,每年各高校都会使用 ...

  • 四六级翻译中国文化
  • 剪纸(paper cutting)是中国最为流行的传统民间艺术形式之一.中国剪纸有一千五百多年的历史,在明朝和清朝时期(the Ming and Qing Dynasties)特别流行.人们常用剪纸美化居家环境.特别是在春节和婚庆期间,剪纸被用来装饰门窗和房间,以增加喜庆的气氛.剪纸最常用的颜色是红 ...