机器翻译和人工翻译区别在哪儿 (翻译人工智能的大规模应用)

人工智能学家

作者:李承杰

前段时间风靡一时的阿尔法狗(AlphaGo)狠狠地为很多人普及了一下人工智能,很多人有这样的感觉:一不留神,象棋下不过电脑了,再一不留神,围棋也败了,而且完败。其实人工智能是许许多多技术的集合,很多与我们的生活密切相关。比如机器翻译。

相信常跟外语打交道的我们都会有这样的感觉,电脑翻译越来越强大了。从最开始的只能翻译单词,翻译句子简直一窍不通的阶段,到现在翻译出来句子可以符合基本的语法,再慢慢得可以有简单的逻辑性了,现在部分软件可以联系上下文了。机器翻译一直在默默地进步着,而背后支撑它进步的便是不断发展的人工智能技术。

本文将从机器翻译的发展历史,它是如何与人工智能结合的,目前机器翻译技术的进展以及这个领域的一些公司情况介绍。

翻译软件和人工翻译的区别和联系,翻译会被人工智能取代吗

背 景

什么是机器翻译呢?机器翻译(machine translation),又称为自动翻译,是利用计算机把一种自然语言转变为另一种自然语言的过程。

1:语言水平

无论是打印的或者手写的字体,如果想识别特定的字母字符,问题就在于理解单词、句子或更大的一段文字组合的”自然“语言,如英语。为了区分语言如英语和机器语言,前者通常被称为”自然语言”。在机器语言中,为了理解输入的自然语言通常会将其转换到某种记忆模型(如拉斐尔使用的SIR系统或奎廉所使用的语义网络)或执行一些恰当的输入动作。

从一种语言翻译成另外一种,既要理解又要生成。进行一场谈话也是如此。所有的这些问题—理解、产生、翻译与一般的谈话—构成了“自然语言处理”(有时也简称NLP)

语言学家和其他学习语言者认为对语言的认识和分析有很多不同的层次。从处理那些只有最基本组成(发音和文字)的语言到诉讼,法律等,再到处理句子序列。

处理句子首先要解决的是语法问题。语法关注句子的结构和规则。它规定所试图描述一串字在一个特定的语言是否符合语法。例如,该字符串“约翰打了球”符合语法,但是”球到约翰“则不符。

但是语法表示的意义不够确定。例如这句话“无色的绿色思想在疯狂的睡眠“可能被认为符合语法,但它是荒谬的。语义层次帮助确定意义(或无意义的)一个句子的运用逻辑分析。例如,通过语义分析理论,提出一种”想法“不可能同时是”无色“和”绿色“。

接下来是语用学的水平,以文章的上下文来牵制句子的意义,例如,“吃过饭了吗?”在家人对话的上下文和恋人对话的上下文中有明显不同的意义。语用含义在具体的语境中有特体的体现。

这些层面,即特定的主题下如何处理自然语言,是语言早期研究的一个重要方面,而这些研究,对于不同语言之间的翻译来说是至关重要的。

目前的机器翻译已经可以将单个词进行比较准确的翻译,也能够基本符合语法,语义层次(也就是是否符合逻辑)也略有突破,但是在语用水平,也就是根据上下文来进行准确的翻译还未取得突破。

翻译软件和人工翻译的区别和联系,翻译会被人工智能取代吗

2:机器翻译的实现方法

随着科技和社会经济的快速发展,全世界的互联互通已经成为不可阻挡的发展趋势,那么不同国家之间如何实现低成本的有效交流呢?

人工翻译所耗费的成本巨大,也许最好的解决方法就是:充分利用机器翻译技术提供智能自动翻译服务。机器不会累、学习快,一个系统同时掌握十几种语言互译也不是问题,也许永远不会像人一样出现翻译盲点。

但是语言的复杂性众所周知,人尚且会有误解的时候,那么冰冷的机器究竟是怎么翻译一种语言的呢?它会思考吗?

下面我们就来探讨一下机器翻译技术的实现方式。

目前机器翻译的主流方式叫“统计翻译”。

统计机器翻译的基本原理是:从语料库大量的翻译实例中自动学习翻译知识,然后利用这些翻译知识自动翻译其他句子。

比如,为了让机器顺利实现中英文之间的翻译,首先需要收集大量中英文双语句对,然后使用计算机从这些双语句对中统计并学习翻译知识。

看到这里你也许会觉得,机器翻译好像也不难,不就是要收集到足够多的词汇和例句吗?

当! 然! 不! 是!

让机器学习翻译知识可不是一件简单的事。

人类语言具有很大的复杂性。首先,很多用词和表达方式是多义的、模糊的、跟特定应用环境相关的。即使是同一个句子,在不同语境下的意思也不相同。例如,碰到这样的情况,不仅仅是老外,机器估计也会 “迷茫”。

翻译软件和人工翻译的区别和联系,翻译会被人工智能取代吗

其次,不同语言的语序也不一样。例如 “最好的朋友之一”,翻译成 “one of the best friends”,其中 “之一” 的翻译被提前了。

再者,对于同一个句子,它可能有很多种正确的翻译方法。这样增加了机器学习过程的不确定性。例如 “你好” 可以被翻译成 “Hello”,或者 “How do you do” 等。

因此,一个优秀的机器翻译系统,对于词的翻译知识,短语的翻译知识、语法结构的翻译知识、语义的翻译知识等等全部都要掌握。

以中英翻译方向为例,系统首先要掌握中英文之间词、短语、语法结构的翻译知识。有了这些翻译知识之后,系统就会把这个中文句子切分成各种词、短语、或者语法结构的组合 (这个过程中,有成千上万种切分可能,每个单元也有多种翻译备选),然后分别翻译每一个单元,最后组合起来形成最终的英文翻译。

机器翻译的过去

在现在看来,机器翻译毫无疑问是一项被公认为具备广泛应用前景的技术方向,但纵观该技术的发展史却并非一帆风顺,其可行性和实用性曾不断遭受质疑。

但机器翻译技术的这段历史走的却并非一帆风顺,甚至曾一度被视为是天方夜谭,其可行性和实用性不断遭受质疑。纵观机器翻译技术发展史,大致可分为草创、萌芽、沉寂、复苏、发展共 5 个阶段。

草 创

机器翻译的研究历史最早可以追溯到二十世纪三四十年代。二十世纪三十年代初,法国科学家 G.B.阿尔楚尼提出了用机器来进行翻译的想法。

1946年,世界上第一台现代电子计算机 ENIAC 诞生。随后不久,信息论的先驱、美国科学家 Warren Weaver 于 1947年 提出了利用计算机进行语言自动翻译的想法。

1949年,瓦伦·韦弗(Warren Weaver)发表《翻译备忘录》,就基于香农的信息论提出了统计机器翻译的基本思想。而最早提出可行的统计机器翻译模型的是IBM研究院的研究人员。他们在著名的文章《统计机器翻译的数学理论:参数估计》中提出了由简及繁的五种词到词的统计模型,分别被称为IBM Model 1到IBM Model 5。这五种模型均为噪声信道模型,而其中所提出的参数估计算法均基于最大似然估计。

萌芽

1954年,美国乔治敦大学在 IBM 公司协同下,用 IBM-701 计算机首次完成了英俄机器翻译试验,向公众和科学界展示了机器翻译的可行性,从而拉开了机器翻译研究的序幕。

翻译软件和人工翻译的区别和联系,翻译会被人工智能取代吗

(图:IBM-701 计算机的英俄翻译)

随后十年左右的时间内,机器翻译研究热度不断上升。美国、前苏联及一些欧洲国家均对机器翻译研究给予了相当大的重视,机器翻译一时出现热潮。

沉 寂

然而,正当一切有序推进之时,尚在萌芽中的 “机器翻译” 研究却遭受当头一棒。

1964年,美国科学院成立了语言自动处理咨询委员会 (Automatic Language Processing Advisory Committee)。委员会经过 2年 的研究,于 1966年 公布了一份名为《语言与机器》的报告。

该报告全面否定了机器翻译的可行性,并宣称 “在近期或可以预见的未来,开发出实用的机器翻译系统是没有指望的”。受此报告影响,各类机器翻译项目锐减,机器翻译的研究出现了空前的萧条。

复 苏

进入二十世纪七十年代中后期,随着计算机技术和语言学的发展以及社会信息服务的需求,机器翻译才开始复苏并日渐繁荣。业界研发出了多种翻译系统,例如 Weinder 、EURPOTRAA、TAUM-METEO 等。

其中于 1976年 由加拿大蒙特利尔大学与加拿大联邦政府翻译局联合开发的 TAUM-METEO 系统,是机器翻译发展史上的一个里程碑,标志着机器翻译由复苏走向繁荣。

发 展

1993年IBM 的 Brown 和 Della Pietra 等人提出的基于词对齐的翻译模型,标志着现代统计机器翻译方法的诞生。

2003年 爱丁堡大学的 Koehn 提出短语翻译模型,使机器翻译效果显著提升,借助同时期 Franz Och 提出的对数线性模型及其权重训练方法,短语翻译模型在工业界开始广泛采用。

2005年David Chang 进一步提出了层次短语模型,同时还有多个大学和研究所在基于语法树的翻译模型方面研究也取得了长足的进步。

机器翻译的现状

随着全球互联互通日益频繁,几乎人人都渴望着实时翻译这一 “逆天” 技术能早日变成现实,伴随这一代代科学家们不懈的努力,科幻正一步步照进现实。

为了实现机器翻译的梦想,以 IBM、谷歌、微软为代表的国外科研机构和企业均相继成立机器翻译团队, 专门从事智能翻译研究,矢志打破语言障碍。我们科大讯飞也在做这方面的研究。

IBM 从 2001 起就开始大规模开展该领域的研究,并在英语、阿拉伯语和中文之间的互译领域进行重点投入 。2009年9月IBM 正式推出了 ViaVoice Translator 机器翻译软件,为自动化翻译奠定了基础。在此之后, IBM 所从事的这项研究项目无明显进展,不就后被放弃。

自 2011年 开始,伴随着语音识别、机器翻译技术、DNN(深度神经网络)技术的快速发展和经济全球化的需求,口语自动翻译研究成为当今信息处理领域新的研究热点。

Google 于 2011年1月 正式在其 Android 系统上推出了升级版的机器翻译服务,现在,谷歌翻译已经可以在超过 70 种语言之间进行互相翻译。在 2012年,谷歌翻译的用户使用量大约为 2 亿次。到目前为止,这项服务还是免费的。但对于一项自动化的翻译服务来说,跨国公司将会乐于使用这种服务,从而为其带来很高的价值,这意味着在未来谷歌几乎肯定可以通过这种翻译工具获取大量收入。

2012年 微软研究部门全球负责人里克·拉希德(Rick Rashid)在中国召开的一次会议上宣布了机器翻译 项目的成功。当时他用英语讲话,而一台微软计算机同时将他说的话翻译成普通话,而且是以拉希德自 己的声音说出来的,从这点上来看,微软的这个翻译程序已经沾染上了一丝人性。微软的 Skype 于 2014年 12月 宣布推出实时机器翻译的预览版、支持英语和西班牙语的实时翻译,并宣布支持 40 多种语言的文本 实时翻译功能。本文开头提到的聊天软件 Skype 中使用的正是微软的机器翻译技术,Skype 翻译背后最重要的技术就是语音识别的巨大提升,使用微软神经网络语音识别技术与机器翻译相结合,允许用户可以在一对一不同语言交流时可以更好的翻译。

机器翻译的未来

随着机器翻译技术的进步,另一种担心也在悄然蔓延:“机器会抢同声传译的饭碗吗?会让从事这一行业的人类失业吗?

科大讯飞的工作人员认为,目前担心这个问题还为时尚早。虽然现在可以通过一些实用的技术让机器去模拟人的智能活动,模拟人对语义的理解,但相对于彻底的人工智能和语义理解,还有相当长的道路。如果有一天机器真的能够实现准确的实时翻译,它们的角色更可能是辅助相关产业的工作人员更轻松、便捷地开展工作,而不是取代他们。

机器翻译产业

有道:我们以中文为中心语言,为每一个希望用中文来了解世界的用户提供我们的服务。

有道是笔者最喜欢的翻译软件,方便,功能丰富多彩,而且专业。

有道翻译(有道词典)是网易公司开发的一款翻译软件,其最大特色在于翻译引擎是基于搜索引擎,网络释义的,有道词典也就是说它所翻译的词释义都是来自网络(往往来自于网络的释义使我们最想要的)。

有道桌面词典背靠其强大的搜索引擎(有道搜索)后台数据和“网页萃取”技术,从数十亿海量网页中提炼出传统词典无法收录的各类新兴词汇和英文缩写,如影视作品名称、品牌名称、名人姓名、地名、专业术语等。由于互联网上的网页内容是时刻更新的,因此有道桌面词典提供的词汇和例句也会随之动态更新,以致将互联网上最新、最酷、最鲜活的中英文词汇及句子一网打尽。

翻译软件和人工翻译的区别和联系,翻译会被人工智能取代吗

  • 百度翻译

2011年7月初,百度正式推出web端百度翻译。将支持中文、英文免费在线翻译;同时支持网页翻译。这项新服务是百度与中科院合作的一个项目,研发时间已经持续两年,获得国家几千万资金扶持。此次上线的百度翻译是百度自主研发的翻译核心,这项服务的基本原理是机器自动从大量语料中学习并自动生成翻译结果,即翻译结果是没有经过任何人工整理与编辑的。对于以非人工方式提供翻译结果,百度方面表示对翻译结果的正确性和合法性不做任何形式的保证,亦不承担任何法律责任。

15年百度还出来一个实物翻译,但是很明显的,人工智能目前远远未做好跟现实接轨的准备,因此翻译质量着实不敢苟同,欲知详情,自行百度。

  • 谷歌翻译:

作为全球人工智能巨头企业,谷歌翻译代表了目前最强大的机器翻译实力,目前谷歌翻译支持的语言已经达到103种。虽然在中文翻译的某些方面似乎不如有道,但是其实力仍不容置疑。它采用的翻译技术是统计机器翻译技术。

Google要整理和开放全球的信息,翻译是一项不可或缺的工具。但这项技术并不简单,Google必须运用其大规模资料处理方法,加上机器学习的演算规则,用不同语言比较同一篇文字内容。

语言是人类资讯传递的中心,自然也是Google的重心。而除了文字翻译,YouTube视频网站、Google Voice和Google 411等服务,也提供部分语音翻译功能。而该公司在数十种语言的交叉翻译上,已有不错的进展。

Google已通过跨语信息检索(Cross Language Information Retrieval,简称CLIR)计划,提供几种语言的搜索页面翻译。例如,在俄罗斯用Google搜索前英国首相Tony Blair的传记,英文结果页的底部会有一个俄文的选项,点入该链接,英文网页即可翻译成俄文。

  • 译云

译云的优势在于多年积累的线下资源。“译云” 背后站着的是1973年 成立的中国第一家翻译公司中国对外翻译出版社,他们有着 40年 的语言服务市场经验,一直都是联合国翻译服务提供商。近日,译云一口气推出了系列的互联网产品,涵盖了笔译和口译两部分。

从功能上来说,译云是一个对接译员和客户的平台,它将原有线下的语言服务流程线上化。登入译云网站后,用户可以选择自己的身份(客户、独立译员和翻译机构),之后就可以进入平台,完成从客户下单、译员接单、译员翻译、交付译稿到交易后的支付和评价整个流程。

以一次笔译交易为例,一般客户根据 SOP 上传文档,提出翻译需求,由系统通过算法向客户推荐或自动匹配译员。

普通译员在任务大厅认领工作任务,之后可以使用译云提供的 CAT 翻译工具完成工作。这套 CAT 工具,由译云独立开发,译者可以对接译云的语言库功能,随时调阅不同学科的语料库,提高翻译效率。同时,译言的机器翻译库也能够帮助译者大大提升翻译效率。

对于翻译机构来说,在绝大部分功能上与个人译员部分相似,但提供了内部协作功能,可以进行翻译任务分配,翻译协作,以及译员管理等等。

除了将单笔交易线上化,译云更为重要的核心的竞争力是语言资产的管理。 无论是对于客户、译员或者翻译机构,译云将用户的每次翻译行为记录,并将这部数据转换为整个平台的语言资产。目前在这一块,译云已经做了几件事情:

首先,40年 的线下翻译积累为译云平台搭建储备了大量的数据。据译云的创始团队介绍,他们团队利用一年多的时间将原先积累的翻译资料数字化,并将这部分数据与网络公开资源合并,成为机器翻译语料基础。

其次,译云对于互联网上公开的翻译资源进行整理,当一个译者面临不同的领域时,可以随时调阅译云提供自己的术语或者是记忆库,例如中国特色词汇英汉大全、英文谚语汉对照库。

最后,译云还外用户提供自建语言资产库的功能,用户可以针对具体的领域和公司建自己的库,例如 36 氪在线教育领域,通过记录译者所有的翻译轨迹,在未来提高翻译效率。

译云整一套逻辑背后是自然语言处理和机器学习。经过用户调教的翻译结果能够帮助译者提高翻译效率,同时也可以提高协同合作的效率。在这方面,译云鼓励用户将自己的语言资产分享出去,帮助更多的人提高翻译效率。同时对于客户来说,语言资产管理服务积累过往的翻译素材,节约翻译成本,当面对不同的译者,可以保持自己翻译内容的连贯性。

而在口译这部分,目前平台提供的功能是简单的预约服务功能,而之后的服务以及费用都需要再由客户和译者之间再做具体的协商。此外,译云也推出了一款基于 LBS 的找翻译工具找翻译,可以根据地理位置去匹配相应的译者,不过这个频次比较低,基于地理位置的判断对于译者和客户的匹配效率更低。

译云的创始团队中译语通主要来自中译,有多年丰富语言服务市场的经验,CEO 于洋曾带队完成 2008年 北京奥运会、2010年 上海世博会等多个国际语言服务项目。译云技术团队的负责人是原方正的技术总监。目前他们已经拿到了 A 轮融资,未来将陆续推出多款语言服务产品。

翻译软件和人工翻译的区别和联系,翻译会被人工智能取代吗

  • 商鹊网

在全球互联互通日益频发的今天,低成本实时翻译的需求不断增大,技术手段也日益成熟,科幻正一步步地变成现实。翻译的未来就是机器+人类,商鹊严格遵循了这一理念并将沿着这一趋势不断发展进化。让语言服务便捷、精确化,使更多的人能够从中受益。

商鹊网的团队是一支专业背景多样化、学历水平层次高的优秀团队。CEO邹剑宇曾任职于《三联生活周刊》,是中国第一代互联网记者。后又从事专门互联网工作长达19年,对互联网和语言系统有深厚研究。并且公司的其他成员术业有专攻,有自然语言算法工程师、架构工程师、运营人员、生产负责人、培训导师以及专业翻译人员。

作为商鹊网核心业务的翻译服务通过人机结合、API对接的方式来实现批量快速的任务。面向的市场主要为:专利论文文献、跨境电商或旅游和境外投资。目前市场上的翻译工具多而杂,但商鹊*特网**殊的地方在于,它是专业性翻译,不仅需求量大,可购买性也很强。论文翻译、留学生出国所需资料方面等构成了一个以亿计算的市场。并且随着出境游日趋火爆,据计算需求为10亿级。另外,机构需求也是一个庞大的市场,随着中外合作的不断紧密,知识产权、跨境金融资讯、跨境电商商品代运营都有大量翻译需求。”商鹊网的市场可以是TO-C,更是TO-B”,”根据经济学规律,20%的人的购买量占到80%”商鹊网负责人表示说。

为了增强翻译的专业性,以及在最大程度上满足用户的需求,商鹊网独立研发的翻译软件设置了相应的功能。首先在翻译页面上,有方向、类别、用户、文本四个下拉按钮,用户可以根据自己的需求来填选,以增强机器翻译的专业性。另外,如果用户对机器翻译的效果不满意,可申请人工服务。那么人工将会以机器翻译为基础,进行二次加工。通过人机结合理念的垂直引擎服务,来达到用户的最大满意度。

作为商鹊网翻译模式的最大亮点,人机结合的运用使机器和翻译人员的能力都得到了很大提升,并且双方契合得更加紧密。首先,在对机器翻译结果进行二次加工时,翻译人员接触到了很多专业性的生僻词语,并且在大量修改词句、语法的过程中又对被翻译与翻译的语言系统有了更深层次的了解。所以通过二次学习,译员的翻译能力得到很大提高。除此之外,通过和译员的合作程度不断加深,机器的内部语句库也不断丰富,并且更加了解用户和译员的需求,从而得到不断进化。

”众包““理念的运用也是商鹊网商业模式的一个亮点。首先在翻译人员分布上,有全职译员和兼职译员。通过专业培训,二者在实现工作效益最大化的前提下,都最大程度上实现了工作满意度。另外,商鹊网通过和猪八戒网,以及后续的阿里电商等平台合作,来为用户提供一个翻译入口。与几大平台的携手合作可以为商鹊网带来大量流量,从而为后期的翻译业务做好准备工作。

随着公司的发展,商鹊网在技术、数据、译员和业务放面得到了深厚积累。技术服务有翻译引擎和在线翻译系统定制,以及术语库和句对库建设。工具服务有一本字典、术语宝等。为保证翻译团队的稳定新鲜性,还与外语高校、互联网运营和培训机构联系合作,对译员们进行PE、AI和专业术语等拓展培训。并且目前企业已申请的著作权在8个以上。通过人机结合和众包的运用,商鹊网在翻译方面的优势不断体现出来:一、降低了准入门槛。通过降低行业翻译的专业要求和译员的学习积累成本,总产能大幅提高。二、译员工作轻松化,生产效率提高。三、重复翻译工作量减少,任务管理高效化。

结 语

文章的最后,笔者做一个小小的展望,未来,在机器翻译领域,一定会出现很多很多以自己的国家语言,或者以某种特定语言为优势的小公司,这个领域也将吸引更多在语言方面有天才的创业者的加入,另外,由于文字是文化的重要载体,所以机器翻译对各个国家文化的传承,也将发挥不可磨灭的作用。