人工与机器差异分析,人工翻译和机器翻译的区别大吗

阅读文章前辛苦您点下“关注”，方便讨论和分享，为了回馈您的支持，我将每日更新优质内容。

人工与机器差异分析,人工翻译和机器翻译的区别大吗

机器翻译方法

机器翻译又称为“自动翻译”，是利用计算机将一种语言转换为另一种语言的过程，

而机器翻译的方法又包含了规则法、语料库法这两个大类。

科学家开始研究翻译员的工作，试图让计算机能够重复翻译行为。为了参考翻译员的翻译过程，实现机器翻译的功能，科学家研发出一种机器翻译系统。

它通过研究源语言与目标语言的语言学信息来进行，也就是基于词典和语法等规则生成翻译，这被称为基于规则的机器翻译（rulebasedmachinetranslation,RBMT），具体表现为依据语言规则对文本进行分析，再借助计算机程序进行翻译。

规则法需要通过三个连续的阶段实现对语言的翻译，其中包括分析，转换，生成。 其翻译功能的本质是基于人工翻译的底层逻辑，只不过全程由机器来完成，全程只需按照预设程序进行转换，翻译过程当中不需要人工的参与。

人工与机器差异分析,人工翻译和机器翻译的区别大吗

机器翻译的语料库法指经取样和加工的语料电子文本库，其中存放的是在语言的实际使用中真实出现过的语言材料，包含了源语语料及译语语料。

根据对语料的抓取形式的不同分为实例法、统计法、神经网络法这三类。

基于实例的机器翻译的本质是“以翻译实例为基础，基于相似原理的机器翻译”，其

主要利用预处理过的双语语料和翻译词典。

该方法的显著特点是忽略了语法和语义规则，转而依赖大型的文本语料库。基于实例的翻译过程通常包括三步：第一步：在翻译实例库中搜索匹配片段。

第二步：确定相应的译文片段。第三步：利用类比思想，避免复杂的结构分析，从而重新组合译文片段，以得到最终翻译。

统计法（statisticalmachinetranslation,SMT），通过对大量的平行语料进行统计分析，构建统计翻译模型（词汇、比对或是语言模式），进而使用此模型进行翻译，一般会选取统计中出现概率最高的词条作为翻译，概率算法依据贝叶斯定理。

人工与机器差异分析,人工翻译和机器翻译的区别大吗

假设要把一个汉语句子A翻译成维语，所有维语句子B，都是A的可能或是非可能的潜在翻译。Pr(A)是类似A表达出现的概率，Pr（B|A）是A翻译成B出现的概率。

找到两个参数的最大值，就能缩小句子及其对应翻译检索的范围，从而找出最合适的翻译。

SMT根据文本分析程度级别的不同分为两种：基于词的SMT和基于短语的SMT，后一个是目前普遍使用的，Google翻译用的就是这种。

翻译文本被自动分为固定长度的词语序列，再对各词语序列在语料库里进行统计分析，以查找到出现对应概率最高的翻译。

神经网络机器翻译(NeuralMachineTranslation,NMT)是最近几年提出来的一种机器翻译方法。相比于传统的统计机器翻译（SMT）而言，NMT能够训练一张能够从一个序列映射到另一个序列的神经网络。

NMT其实是一个encoder-decoder系统，encoder把源语言序列进行编码，并提取源语言中信息，通过decoder再把这种信息转换到另一种语言即目标语言中来，从而完成对语言的翻译。

从前文的论述我们可以发现人工翻译和机器翻译由于不同的翻译特点以及翻译方式使得译文内容在翻译准确度、翻译流畅度以及翻译效率这三个方面存在较大的差异，下文将着重对机器翻译过程中影响准确度以及翻译流畅度的误差进行分析，探讨其内因并提出改进措施及建议。

首先说明本次误差分析的语料来源，进行对比研究分析的语料库是从《扫黑风暴》电视剧台词当中随机抽选了十集的台词，涉及875句汉语台词语料。

为了确保翻译语料的准确性及对比研究的研究质量，本人对十集的汉语语料、对应机器翻译语料以及对应的人工翻译语料逐句审核。

人工与机器差异分析,人工翻译和机器翻译的区别大吗

通过对这875句语料进行分析，把错误类型分为了三个一级错误包括词汇错误、语篇错误以及其他错误。

词汇和语篇的一级错误下又分为几个二级错误，其中词汇错误的二级错误中包含漏译、死译、多译、误译，语篇错误的二级错误中包含偏向字面翻译、原文理解误差。

接下来通过对机器译文和人工译文进行对比，把机器译文当中所出现的误差进行标注，并根据不同类型的误差进行统计分析。

之后对具体错误的出现频率进行统计，通过分析后得出可视化数据报表，针对误差数据分析进行说明。

经过以上流程的处理之后，对机器翻译的错误进行了归类统计，输出了图2、图3、图4、图5所示统计结果。

人工与机器差异分析,人工翻译和机器翻译的区别大吗

图2按照句子的正确与否表示译文错误总体比例，错误率的计算方式为（错误译文句/总译文数x100%），图3表示词汇、语篇、和其他类型所占错误的比率，如一个句子错误是由于词汇偏误导致那就算作是词汇错误，整句形成的句法错误算作语篇错误，二者都包含的只算其一不重复计算。

错误占比计算方式为（错误词或错误句/总错误数x100%）图4表示词语误差中二级错误所占详细比率，计算方式为（二级错误/一级错误词总数x100%），图五表示语篇误差中二级错误所占详细比率，计算方式为（二级错误/一级错误句总数x100%）。

由图3所示，词汇错误共计471处占总错误比率的63.51%，语篇错误共计170处占总错误比率的22.97%，其他错误共计101处，占总错误比率的13.25%。

经过以上分析可以发现词汇错误是译文错误的主要原因，次要原因是语篇错误和其他错误。

参考文献：1.范守义.模糊数学与译文评价[J].中国翻译，1987（4）：2-9.

2.刁洪.国内翻译技术研究综述[J].北京第二外国语学院学报,2017,39(06):69-81+ 125.