当前位置:首页 > 新闻资讯 > 科技生活 > 新闻
跨越沟通障碍 ——机器翻译漫谈
  • 2014-8-24 15:53:30
  • 类型:原创
  • 来源:电脑报
  • 报纸编辑:电脑报
  • 作者:
【电脑报在线】《圣经》上有一个著名的典故:说的是古时的人类曾经计划建造一座通往天堂的巴别塔,上帝为了阻止人类这样做,便使人们说不同的语言,使他们不能相互交流,最终巴别塔没有建成。几千年来语言的不同,始终是人类交流的一大障碍。


                                                                @桔色心情

《圣经》上有一个著名的典故:说的是古时的人类曾经计划建造一座通往天堂的巴别塔,上帝为了阻止人类这样做,便使人们说不同的语言,使他们不能相互交流,最终巴别塔没有建成。几千年来语言的不同,始终是人类交流的一大障碍。

生产力水平的提高,使得不同地域和种族的人们有了相互交流的机会。不同语言造成的交流障碍使得翻译应运而生。至于专业的翻译何时诞生,如今无同得知,但翻译一直靠人工,且翻译水平参差不齐,却是不争的事实。如何摆脱人工翻译的弱点,用机器代替人脑来进行翻译,成为了科技先驱探索的目标。

机器翻译的最初设想

用机器进行语言翻译的想法由来已久,早在2000多年前古希腊就有人提出过。但只能是想法而已。直到17世纪,关于采用机器词典来克服语言障碍的想法才有了方向上的探索。笛卡儿、莱布尼兹试图用基于统一的数字代码来编写词典。

约翰•维尔金斯则在《关于真实符号和哲学语言的论文》中提出了中介语的概念。试图通过中介语将世界上所有的概念和实体都加以分类和编码,有规则地列出并描述所有的概念和实体,并根据它们各自的特点和性质,给予不同的记号和名称。德国学者里格提出过一种数字语法,这种语法加上词典的辅助,可以利用机械将一种语言翻译成其他多种语言,首次使用了“机器翻译”(Machine Translation)这个术语。后来MT就成了机器翻译的代名词。

机器翻译的草创时期

IBM早期的翻译系统IBM-Filene-Finlay

真正将设想付诸于行动是在1930年代初。法国科学家阿尔楚尼提出了用机器来进行翻译的想法,并在1933年制作了一台叫做“机械脑”的机器,由此获得了一项“翻译机”专利。

这种机械脑的存储装置可以容纳数千个字元,通过键盘后面的宽纸带,进行资料的检索。阿尔楚尼认为它可以应用来记录火车时刻表和银行的帐户,尤其适合于作机器词典。在宽纸带上面,每一行记录了源语言的一个词项以及这个词项在多种目标语言中的对应词项,在另外一条纸带上对应的每个词项处,记录着相应的代码,这些代码以打孔来表示。机械脑于1937年正式展出,引起了法国邮政、电信部门的兴趣。但由于第二次世界大战爆发,阿尔楚尼的机械脑无法安装使用。与此同时,1933年苏联发明家特罗扬斯基设计了把一种语言翻译成另一种语言的机器,并在同年9月5日登记了他的发明。但是,由于技术水平所限,他意想中的翻译机没有制成。

真正具有实用功能的机器还得看1931年由IBM生产的IBM-Filene-Finlay翻译机。这台机器被永久安装到位于日内瓦的国际联盟。在那里,有些语言已经提前翻译好并同步读出,而有些语言首先以母语说出,而译员做记录。然后,一名译员以自己的语言说出,而其他人同时以自己的语言读出。在 1946年的纽伦堡战争犯审判期间,该系统经过修改,实现了“同声传译”——讲话人的说话速度必须放缓,让译员能够同步说出。

机器翻译的受挫期

IBM-701计算机的俄语至英语翻译

1946年电子计算机问世后,英国工程师A.D.布斯和美国工程师W.韦弗在讨论电子计算机的应用范围时,提出了利用计算机进行语言自动翻译的想法。1949年,韦弗发表了一份以《翻译》为题的备忘录,正式提出了机器翻译的问题。

1954年,美国乔治敦大学在IBM的协同下,用IBM-701计算机首次进行了世界上第一次机器“英俄”机器翻译试验,向公众和科学界展示了机器翻译的可行性,从而拉开了机器翻译研究的序幕。世界各国尤其是美苏对机器翻译投入大量的人力、物力和财力。

1966年11日美国科学院语言自动加工咨询委员会公布了一个题为《语言与机器》的报告,给蒸蒸日上的机器翻译研究泼了一盆冷水。该报告全面否定了机器翻译的可行性,并建议对相关项目研究停止资金支持。这很大程度上由于的机器翻译主要基于一个双语字典的直接翻译,在语法结构等方面的毫无建树。举个例子来说,light在英文中最基本的两个词意,灯(名词)和轻的(形容词),基于双语词典的直接翻译并不能辨别在句子中该词是翻译成“灯”还是“轻的”。再比如:thedriver of the bus with a yellowcoat,既可翻译为涂着黄色涂料的公交车司机,也可翻译为穿着黄色外套的公交车司机。这需要根据句子上下文意思,通过识别正确语义关系的模块来实现。机器翻译走了寒冬的萧条期。

但由于各国的频繁交往,国与国之间的语言障碍越来越突出。现实的需要让机器翻译1970年代初又被重新提及和重视。与此同时,计算机科学和语言学研究的发展,以及计算机硬件技术的大幅度提高,加上人工智能在自然语言处理上的应用,从技术层面也推动了机器翻译研究的复苏。

对于如何提高翻译的准确性,科学家想到了一种方法,将抽象表达设计为一种与具体语种无关的“中间语言”,它可以作为许多自然语言的中介。这样,翻译就分成两个阶段:从源语言到中间语言,从中间语言到目标语言。另一种更常用的间接方法是将源语言的表达转化成为目标语言的等价表达形式。这样,翻译分成三个阶段:将输人文本分析成为抽象的源语言表达、转换成为抽象的目标语言表达和最后生成目标语语言。

针对各个行业的机器翻译系统新产品不断诞生。如加拿大的TAUM-METEO英法机器翻译系统,可用于天气预报;如美国的SYSTRAN系统和WEIDNER系统,可分别在大型计算机上和微型机上运行,只是前者更快,每小时能译几十万;后者速度较慢,但仍比人译得快。译文基本能表达意思,只是在准确度上还需要人工进行进一步加工。

机器翻译的繁荣期

曾火爆一时的金山快译

机器翻译与公众联系紧密应该说是近20年来的事。对于一些电脑老用户而言,英文版Windows95外挂四通利方或中文之星的记忆仍然清晰。当时的许多软件都是英文版,中文版很少。于是针对英文翻译的各类机译软件隆重登场。在国内市场,比较著名的有金山快译和东方快车等。这些软件借助电脑硬件性能的提高,通过扩大词库量和算法取胜,翻译的结果也只是表达意思,离“信达雅”的标准还差很远。

 

神奇的Google翻译

互联网的迅速普及加快了传统翻译软件的没落。Google翻译是互联网翻译系统最重要的代表,打开浏览器,将相关网址输入,再将需要翻译的源文粘贴到相关对话框,点击“翻译”按钮,翻译内容很快就被显示在对应的窗口中。更让人叫绝的是,对于一些俚话、俗语,Google也能给出一些意想不到的翻译效果。比如“有钱能使鬼推磨”这一成语,你知道Google给出的翻译是什么?“Money talks”够绝吧。

除此之外,文字识别技术也被加入到了机器翻译的行列。如果你不知道某词如何读,则只需要打开摄像头,将文本扫描识别后,则通过相应的翻译软件进行翻译。整个过程一气呵成,几乎不需要人工干预就可批量完成任务。目前的大多数翻译软件都带有此功能。

这些识别技术的发展,对机器翻译做了有益的补充。

同声传译,机器翻译的未来

微软逆天的计算机“同声传译”,直接用本人声音说中文

虽然机器翻译。但还是有一个小小的遗憾不得不面对——那就是目前主流的机器翻译系统,都需要先输入文本或者语音之后计算机才能翻译。翻译内容和结果之间必然存在一段难以避免的时差,机器翻译的下一个目标,就是让这个时差不断减少,最终达到同声传译的效果。

这项技术的核心在于微软采用了模拟人脑行为的深度神经网络技术,这种技术能让语音识别器更具辨别能力,其性能优于以往的方法。通过这种技术,我们让语音识别的错词率比以往的方法降低了30%,也就是说以前每4到5个词里面便有一个是错误的,而现在每7到8个词里才错1个。

而利用该项技术进行展示同声传译效果,则需要以下的工作流程:首先程序需要识别说话者所使用的语言,这个过程需要使用前大概需要1个小时的语音输入时间,以让系统辨别每个人声音中的细微差别,同时建立相应的模型然后将这些语言转换;之后即可进行正常语音录制识别,然后进行一次性翻译,并使用另一种语言输出,同时可以保留个人声音的特点,这样就使得输出的声音不再是自动合成的效果。

本文出自2014-08-25出版的《电脑报》2014年第33期 A.新闻周刊
(网站编辑:shixi01)


我来说两句(0人参与讨论)
发表给力评论!看新闻,说两句。
匿名 ctrl+enter快捷提交