机器翻译

来自伪基百科

跳转到: 导航, 搜索
60Bouncywikilogo small.gif
为了照顾那些幽默感退化的人们,维基百科有一个主题关于:机器翻译

'机器翻译的缩写,有时也被称为MT(不要混淆与计算机辅助翻译'机器辅助人的翻译'MAHT'交互翻译)的一个子领域计算语言学调查使用软件到翻译从一个文本或讲话自然语言到另一个地方。

在一个基本的水平,MT在一个词语的另一种自然语言进行简单的替换的话,但单独通常不能产生良好的翻译文本是必要的,因为整个词组的识别和目标语言中最相近的。解决这个问题文集和统计技术是一个快速成长的领域,是导致更好的翻译,处理分歧,在语言类型学翻译成语,且异常的隔离。

目前的机器翻译软件通常允许自定义域行业(如天气报告),提高产量限制的范围,允许替换。这种技术是在正式或公式化语言的使用领域,特别是有效的。因此,机器翻译的政府和法律文件更容易产生可用的输出比交谈或不标准的文本。

更好的输出质量也可以通过人工干预来实现:例如,某些系统中是能够更准确地,如果用户已经明确地识别哪些词在文本中的名称翻译。随着这些技术的协助下,MT已被证明可作为一种工具来帮助翻译人员,并在一个非常有限的情况下,甚至可以产生输出,可以使用(例如,天气报告)。

通过其历史的进步和潜在的机器翻译一直争论不休。 20世纪50年代以来,一些学者质疑,实现高品质的全自动机器翻译的可能性。

[编辑] 历史

机器翻译的想法可以追溯到17世纪的。 1629年,笛卡尔提出了一种通用的语言,在不同的语言具有同等的想法,共享一个符号。在20世纪50年代,乔治城实验(1954年)参与完全自动翻译过六旬的俄语句子译成英语。实验是一个巨大的成功,迎来了一个时代的机器翻译研究的大量资金。作者声称,在三到五年内,机器翻译将是一个解决的问题。

取得真正的进展要慢得多,但是,后ALPAC报告(1966年),10年之久的研究发现,未能实现预期,资金大大减少。从20世纪80年代中后期开始,随着计算能力的增加和变得不那么昂贵的,更多的利益所示的统计机器翻译模型。

早在1946年提出的AD展位和其他可能使用的自然语言翻译数字计算机的想法。沃伦·韦弗在1949年写了一封的重要备忘录“翻译”。乔治敦绝不是第一个这样的应用程序,实验和示范是在1954年上的APEXC的机伯克贝克学院(伦敦大学)的一个基本的英语翻译成法语。的话题发表了数篇论文的时候,甚至是流行杂志的文章中(例如,见“无线世界”,1955年9月,顺劈斩和Zacharov)。类似的应用程序,还率先在伯克贝克学院的时候,电脑盲文文本阅读和撰写。

[编辑] 翻译过程

人类的翻译过程中可能被描述为: #解码的源文本的意义; #重新编码目标语言中的这个意思。

这种表面上简单的程序背后,存在一个复杂的认知操作。要解码的源文本的全部意义,译者必须解释和分析的所有功能的文字,一个过程,需要深入的了解语法,语义,语法,成语等,在源语言,文化以及它的扬声器。翻译人员需要重新编码,在目标语言中的含义相同深入的了解。

这才是机器翻译的挑战:如何编写一个电脑,将“理解”一文,作为一个人做的,这将“创造”一个新的文本目标语言中的“声音”,如果已经写的人。

此问题可以接近在一个多种方式。

[编辑] 方法

机器翻译可以使用的方法基于语言学规则,这意味着词语将被翻译的语言 - 最合适的目标语言(口头发言)字将取代那些在源语言。

人们常常认为的成功的机器翻译,需要自然语言理解的问题,首先要解决的。

一般情况下,以规则为基础的方法分析文本,通常创建一个中介,象征性的代表,在目标语言的文本生成。根据性质的中介表示,这种方法被描述为中间语言的机器翻译或传输基于机器翻译。这些方法需要大量的词汇,形态,句法和语义信息,和大的规则集。

只要有足够的数据,机器翻译软件经常工作的一种语言为母语的人不够好,得到近似的其他母语写的是什么含义。困难的是获得足够多的数据的一种权利,以支持特定的方法。例如,大型多语语料库的统计方法,工作所需要的数据是没有必要的语法为基础的方法。但后来,精心设计,他们使用的语法的语法方法需要一名熟练的语言学家。

密切相关的语言之间的转换,这种技术称为可用于浅传输机器翻译。

[编辑] 以规则为基础

转移 - 基于机器翻译 基于规则的机器翻译范例包括传输的机器翻译,跨语言的机器翻译和基于字典的机器翻译范例。

语际 语际的机器翻译是一个以规则为基础的机器翻译方法的实例。在这种方法中,源语言,即要翻译的文本转化为语际,即source-/target-language-independent的表示。 ,然后生成目标语言的语际。

为基础的字典 机器翻译字典搜索项的基础上,可以使用的方法,这意味着,将被翻译词语的,因为它们是由一个字典。

[编辑] 统计

统计机器翻译尝试双语文本语料,如加拿大议事录语料库,英语的法国纪录的加拿大议会和EUROPARL的,欧洲议会的记录使用统计方法的基础上产生的翻译。如语料库,效果不错,可以实现类似的文本翻译,但许多语言对这些语料库尚不多见。第一个统计机器翻译软件CANDIDE从IBM。谷歌使用SYSTRAN好几年了,但切换到2007年10月的统计机器翻译方法。在2005年,谷歌改善其内部的翻译能力约200亿美元的话,联合国的材料,以培养他们的系统,提高翻译的准确性。

[编辑] 基于实例

基于实例的机器翻译(EBMT)的方法,提出了长尾真于1984年,1981年,M. 参“,它的特点往往是作为其主要的知识基础,在​​运行时使用双语语料库。这基本上是一个翻译的比喻和可以被看作是机器学习,基于案例的推理方法的实现。

[编辑] 混合型MT

几个MT组织(发布于2009年3月2日) (如SYSTRAN,亚洲在线,LinguaSys,瓦伦西亚理工大学)要求的混合方法,使用规则和统计数据。多种方式的方法有所不同:

  • 后处理,统计“的规则进行翻译,使用一个规则引擎。统计信息,然后使用在试图调整/纠正从规则引擎的输出。
  • 统计“指导规则”:规则是为了更好地引导统计引擎中的数据进行预处理。规则也可用于后处理的统计输出到执行的功能,如正常化。这种方法拥有更多的权力,当翻译的灵活性和控制能力。

[编辑] 主要问题

[编辑] 消歧

字词义消歧问题找到一个合适的翻译时,一个字可以有一个以上的意义。的问题,首次提出在20世纪50年代由Yehoshua酒吧希勒尔。nonfeasibility的FAHQT他指出,没有一种“通用百科全书”,一台机器永远不会是能区分一个单词的两个含义。今天,有许多方法来克服这个问题。它们可以大致分为“浅”的方法和“深”的方法。

浅的办法不承担任何知识的文字。他们简单地应用统计方法的话,周围的多义词。深方法设定一个全面的认识这个词。到目前为止,浅的方法已经比较成功的。

在后期克劳德·派伦,一个较长时间的翻译的美国联合国和世界卫生组织,写,机器翻译,在其最好的,自动化的更容易的一部分,一个翻译的工作;的困难和费时的一部分通常需要做大量的研究,解决源文本中的含糊之处,需要得到解决的目标语言的语法和词汇的迫切需要:

:为什么一个翻译需要一个工作日的翻译5页,而不是一个或两个小时吗? .....约90%的平均的文本对应这些简单的条件。但遗憾的是,其他的10%。这是那部分,需要6个更多小时的工作。有不清楚的地方,一个必须要解决的。例如,作者的源文本,澳大利亚医生举了一个例子,在二战期间被宣布为“日本战俘营”的流行。他是在谈论美国与日本战俘营或日本与美国战俘营地吗?英语有两方面的意义。因此有必要做研究,也许打电话给澳大利亚的程度。

理想的深方法将需要翻译软件,做一切必要的研究,为自己的这种歧义的,但是这需要一个更高的程度AI比尚未达到。一个浅的做法,简单地猜到意义上的含糊不清的英语短语,派伦提到的(根据,也许是种战俘的战俘营中经常提到的一个给定的语料库)将有一个合理的猜测错了相当的机会常。一个浅的方法,涉及“要求每个含糊不清”,派伦的估计,只有约25%的专业翻译的工作自动化,留下较硬的75%还是要由人来完成的用户。“

[编辑] 本体的MT

本体是一个正式代表的知识,其中包括在域和它们之间的关系的概念(如对象,进程等)。如果存储的信息是语言的性质,能说的词汇。 在NLP,本体可以用作用于机器翻译系统的知识的来源。获得大量的知识基础,系统可以使自己的解决许多(尤其是词汇)的含糊之处。 在下面的典型的例子,作为人类,我们能够根据上下文来解释介词短语,因为我们用我们的世界知识,存储在我们的词典中:

“我看见一个人/明星/分子用显微镜/望远镜/双筒望远镜。” 机器翻译系统最初将无法区分的意义,因为语法不改变。一个足够大的本体作为知识的来源但是,在一个特定的范围内模棱两可的话可以减少可能的解释。 其他领域使用本体内NLP包括信息检索,信息提取和文字总结。

[编辑] 本体

的本体论产生于1993年的潘格洛斯知识为基础的机器翻译系统可以作为一个例子,如何可以编译的本体论NLP的目的: 大规模的本体是必要的,有助于在活动模块的机器翻译系统的分析。

  • 在的潘格洛斯的例子的目的是要被纳入较小,约50.000节点,手工打造的“上”(摘要)“地区”的本体论。由于它的大小,它必须自动创建。

我们的目标是合并两种资源LDOCE在线和WordNet结合两者的优点:朗文,简明的定义和允许以半自动taxonomization从WordNet的本体论的语义关系。

    • A“的定义匹配算法,自动合并模棱两可的话两者之间的网上资源,根据LDOCE和WordNet共同的定义,这些意义上的话,正确的含义”。使用相似矩阵,该算法交付的含义包括信心的因素之间的匹配。 ,然而,仅该算法不匹配的所有含义正确地对自己的。
    • 的第二个“层次匹配”算法,因此它使用的分类层次结构WordNet中的深层次和部分LDOCE(组织架构)。这是通过第一个匹配的明确的含义,然后限制搜索空间,只有各自的祖先和后代的那些匹配的含义。因此,该算法匹配在本地(例如明确的含义,而这个词“密封”,这样是不明确的,有只有一个意义的“海豹”中的“动物”子层次结构)。

这两种算法相互补充,并帮助建设一个大型的机器翻译系统的本体论。 WordNet的层次结构,加上匹配的定义LDOCE,附属于本体论的“上区”。因此,潘格洛斯的MT系统可以利用这方面的知识的基础上,主要在于其发电元件。

[编辑] 应用程序

现在有许多软件程序翻译自然语言,他们在网上的几个,如:

  • Ackuna,的免费crowdsource翻译网站,利用社区,而不是机器翻译的双语扬声器。
  • Anusaaraka,一个免费的开源机器翻译从英语到印地文的在帕尼尼语法和采用先进的NLP的工具。可用于在线和从
  • Joldee,一个免费的在线机器翻译从英语孟加拉语。可在网上http://www.joldee.com
  • 与apertium,一个自由和开放源码的机器翻译平台(“WinXLator”
  • Omnifluent
  • 亚洲在线的产品套件。
  • 冰翻译,大硬
  • Cunei,数据驱动的机器翻译下发布的开源平台MIT许可证。独立于平台的Java代码,命令行和图形界面。
  • DocTranslator,一个Web服务,使用谷歌翻译API自动翻译,并返回Office文档文件(Word,Excel和PowerPoint,PDF),同时保留原有文件的布局。
  • 英语旁遮普语翻译,基于Web的英语旁遮普语机器翻译系统。
  • 一个免费的在线翻译谷歌翻译,从谷歌

谷歌翻译工具,翻译编辑翻译,谷歌翻译自动生成一个Web服务设计。随着谷歌翻译工具,翻译人员可以安排自己的工作和使用共享的翻译,词汇和翻译记忆库。

  • TranslationSoftware4u,屡获殊荣的SYSTRAN翻译软件,翻译软件,最流行的全球最专业的翻译。
  • 印地文以旁遮普语机器翻译系统的,提供机器翻译直接的办法。印地文翻译成旁遮普。此外,它还采用书面形式在印地语语言和电子邮件发送给收件人在旁遮普。
  • 旁遮普语,印地语机器翻译系统,提供机器翻译直接的办法。它翻译成旁遮普语以印地语。它也可以转换任何网站,旁遮普语,印地文,在飞行。该的旁遮普网站必须是Unicode的。
  • IdiomaX,它的权力在idiomax.com的在线翻译服务
  • 本地化工具这样炼金术催化剂和MULTILIZER的的。

iTranslate4,Amebis,巽他和其他人。该平台允许从46种语言的翻译,是新的MT-供应商。

  • Jibbigo,销售双向,离线,语音到语音翻译应用程序为苹果的应用程序商店(IOS)的App Store和Android市场。
  • LetsMT!基于云计算的平台,从用户提供的数据生成自定义的MT引擎。本站由摩西。
  • LinguaSys,提供高度定制的混联机床,可以从一种语言到任何语言的翻译。
  • 露西软件,几种欧洲语言的翻译中。

摩西,一个免费的软件的统计机器翻译引擎的LGPL许可证下发布的晕到死Linux

  • 神经递质,翻译,翻译书籍,网页,文档,电子邮件,传真,备忘录,手册,报告,电子表格,对应的软件,字母和许多语言。对于晕倒死和Macintosh。
  • 电源转换器
  • PROMT,它的权力的在线翻译服务在Voila.fr和Orange.fr

SDL BeGlobal和SDL L​​anguage Weaver的权力FreeTranslation.com

  • SiShiTra,西班牙语,加泰罗尼亚语翻译的机器翻译引擎的混合。
  • SYSTRAN,它的权力雅虎宝贝鱼
  • 打鼓,一家专门从事定制的机器翻译解决方案,在任何语言。基于Web的用户界面使得它很容易为​​任何语言服务提供商产生任何域和语言对组合,以达到最佳的品质。他们的解决方案几乎各种各样的语言对人的素质。
  • 波浪号翻译,拉脱维亚语言的免费在线翻译。还提供免费的Andr​​oid和iOS的应用程序。
  • Toggletext使用传输为基础的系统(被称为Kataku)之间的转换英文和印尼。
  • Traduwiki,基于云的翻译工具,利用的知识的双语和语言感知的社区。该平台提供了一些有趣的工具,团队协作段注释。
  • 翻译和返回,一个免费的在线往返机器翻译工具,它可以检查的回译的正确性。包含虚拟键盘和人声。适用于从右到左的语言,以及。
  • 翻译云API,API供开发人员和程序员采用专有的crowdsource技术,以产生精确的混合应用程序中使用的翻译。
  • Yandex的,之间转换英语和俄语和乌克兰。
  • WebTrance,是一个以规则为基础的中间语言的机器翻译系统与统计部分。它允许英国,保加利亚,德国,法国,西班牙,意大利和土耳其之间的转换。
  • Worldlingo结合而成的机器翻译都统计为基础TE和规则基于TE的。在晕倒死中的MT伙伴和最知名的微软Office 2008的Mac微软的Mac Office。
  • 雅虎巴别鱼,采用SYSTRAN
  • NiuTrans,免费软件的统计机器翻译引擎的LGPL许可证下发布的晕到死Linux,在中国东北大学自然语言处理组开发的。

许多翻译软件程序是免费提供的,例如: ForeignDesk,多平台霍加皮框架

虽然没有系统的圣杯全自动高品质的机器翻译不受限制的文字,许多完全自动化的系统产生合理的输出。如果您正在访问的限制和控制,机器翻译的质量显着提高。

尽管有其固有的局限性,MT方案在世界各地使用。可能是最大的机构用户,是欧洲委员会。 MOLTO项目,例如,由哥德堡大学的协调,收到以上2375000欧元,项目支持欧盟建立一个可靠的翻译工具,涵盖了大多数的欧盟语言。

谷歌一直声称,获得可喜的成果,采用了专有的统计机器翻译引擎。的统计翻译引擎使用的谷歌语言工具的阿拉伯语< - >中文和中国< - >英语有一个整体得分为0.4281以上的亚军IBM的BLEU-4得分为0.3954( 2006年夏)由美国国家标准与技术研究所进行测试。

随着近期重点恐怖主义,军方消息人士透露,美国已显着大量的资金投资在自然语言工程。 “-Q-Tel公司”(创业资本基金,主要是由美国情报界,以刺激新技术,通过私营部门的企业家)的公司,如Language Weaver的。目前军事领域感兴趣的语言,如阿拉伯语,普什图语和达里语的翻译和处理。在DARPA信息处理技术办公室主持节目,如潮汐和巴比伦翻译。美国空军已经获得了100万美元的合同,开发一个语言翻译技术。

社交网络的显着上升,近年来在网络上创建一个利基机器翻译软件的应用 - 在公用设施,如Facebook,或如Skype,GoogleTalk测试,MSN Messenger等即时通讯客户端 - 允许用户来说不同的语言来彼此通信。机器翻译的应用也已经发布的大多数移动设备,包括移动电话,掌上电脑,掌上电脑等,由于其便携性,这种仪器来被指定为移动翻译工具,使移动业务之间的网络合作伙伴,说着不同的语言,或既有利于外语的学习和孤身一个人翻译的中介,而无需到国外旅行。

[编辑] 评估

机器翻译系统和输出进行评价,同时众多的尺寸。的翻译,MT软件的特点,翻译过程中的性质等,都影响如何评价MT系统,其输出。的尺寸,FEMTI分类相关的评价指标,出现在http://www.issco.unige.ch:8080/cocoon/femti/st-home.html中。

有各种不同的装置,用于评估机器翻译系统的输出质量。最古老的是使用人的法官翻译的质量评估。尽管人的评价是耗时的,它仍然是最可靠的方法来比较不同的系统,如基于规则和基于统计的系统。自动评估手段包括BLEU,NIST和流星。

完全依赖于未经编辑的机器翻译忽略了一个事实,在人类的语言是上下文嵌入式通信,它需要一个人理解原始文本的背景下,一个合理的程度的概率。这是千真万确的,尽管是人为产生的翻译很容易出错。因此,为了确保机器生成的翻译将是有益的一个人,和发布高质量的翻译,这种翻译必须进行审查和编辑的人。的后期克劳德·派伦写道,机器翻译,在其最好的,自动化的更容易的一部分,一个翻译的工作,在困难和更耗时的部分通常包括做了广泛的研究,以解决在源代码中的歧义性文本,它的目标语言的词汇紧急需要得到解决。这样的研究是必要的预编辑的必要前奏机器翻译软件等,以提供输入,输出不会是毫无意义的。,请参阅http://www.nist.gov/speech/tests/mt/每年进行自2001年以来,NIST的测试及双语评估替补

然而,在某些应用中,例如,产品说明一个控制语言编写的,基于字典的机器翻译系统产生令人满意的翻译需要不需要人为干预的保存质量检验。

[编辑] !!!注意!!!

以上内容由谷歌翻译提供

[编辑] 实例

虽然机翻对人/电脑的伤害诸多,但是仍有不少人/组织(如游侠)依然投身机翻的伟大事业,下面是一些实例:

...以及更多

个人工具