为了正常的体验网站,请在浏览器设置里面开启Javascript功能!
首页 > 机器翻译与语言研究_下_

机器翻译与语言研究_下_

2014-01-12 4页 pdf 493KB 38阅读

用户头像

is_692844

暂无简介

举报
机器翻译与语言研究_下_ 《术语标准化与信息技术》2007年第4期 机器翻译在中国 我国是继美国、前苏联、英国之后,世界上第 四个开展机器翻译研究工作的国家。当今在机器 翻译方面居于先进水平的日本,是在 1958年才 开始进行机器翻译的,起步比我国为晚。与国外 机器翻译的发展情况相比较,我国机器翻译除了 有草创期、复苏期和繁荣期之外,由于文化革命 的影响,还有一个非常特别的时期———停滞期。 而且,由于我国机器翻译在理论上和方法上以及 设备上的底子都很薄,我国机器翻译的每一个时 期又都比国外机器翻译的同样时期稍微滞后。这 是我...
机器翻译与语言研究_下_
《术语化与信息技术》2007年第4期 机器翻译在中国 我国是继美国、前苏联、英国之后,世界上第 四个开展机器翻译研究工作的国家。当今在机器 翻译方面居于先进水平的日本,是在 1958年才 开始进行机器翻译的,起步比我国为晚。与国外 机器翻译的发展情况相比较,我国机器翻译除了 有草创期、复苏期和繁荣期之外,由于文化革命 的影响,还有一个非常特别的时期———停滞期。 而且,由于我国机器翻译在理论上和方法上以及 设备上的底子都很薄,我国机器翻译的每一个时 期又都比国外机器翻译的同样时期稍微滞后。这 是我国机器翻译发展的特点。 1956年至1966年是草创期。在这个时期,我 国学者对机器翻译进行了初步的探索和试验。早 在 1956年,国家便把机器翻译研究列入了我国 科学工作的发展规划,成为其中的一个课题,课 题的名称是:“机器翻译、自然语言翻译规则建立 和自然语言的数学理论”。1957年,中国科学院语 言研究所刘涌泉等与计算技术研究所合作,开展 俄汉机器翻译的研究。1959年,在我国制造的 104大型通用电子计算机上,进行了俄汉机器翻 译试验,翻译了 9个不同类型的、较为复杂的句 子。在这个草创时期,北京外国语学院、北京俄语 学院、广州华南工学院、哈尔滨工业大学也分别 成立了机器翻译研究组,开展俄汉或英汉机器翻 译的试验。 1966年至 1975年是停滞期,在这个时期,除 了极少数的机器翻译研究者在极端恶劣的条件 下继续进行理论探索之外,没有进行任何的机器 翻译研究和试验。1974年在重庆一家计算机杂志 上发表的笔者综述国外机器翻译和数理语言学 新理论的长篇论文,成为了这个时期惟一的机器 翻译理论成果,它有如空谷之足音,鼓起了处于 困境中的机器翻译研究者的学术勇气。 1975年至 1987年是复苏期,在这个时期,我 国机器翻译研究重振旗鼓,开始复苏,继续进行 机器翻译研究。1975年11月,在中国科学技术情 报研究所设立了一个由情报所、语言所和计算所 等单位的工作人员组成的机器翻译协作研究组, 以冶金题录 5 000条为试验材料,制定英汉机器 翻译并上机试验。1978年 5月,在计算所 111机上进行抽样试验,抽样 20条,达到了预期 的效果。在这个时期,笔者在法国格勒诺布尔理 科医科大学自动翻译研究中心 CETA进行了 汉—法/英/日/俄/德多语言机器翻译试验,建立了 FAJRA系统,在世界上首次把汉语用计算机自动 地翻译成法、英、日、俄、德五种不同的外语,取得 了一定的成果。 这个成果于 1982年在布拉格召开的 COL- ING-82和 1983年在香港召开的东南亚电脑会 议上发表,受到好评。COLING是计算语言学界 最高水平的学术会议,笔者是我国第一个参加 COLING会议的学者,并在会议上的发言,引起 了国际学术界对汉语研究的兴趣。笔者从法国回 国之后,又在遥感技术研究所的 IBM中型计算 机上,利用CMS操作系统,进行了德汉、法汉机 器翻译试验,相应地分别建立了 GCAT和 FCAT (下) MachineTranslationandLinguisticResearch(partⅡ) FENG Zhiwei ◇冯志伟(教育部语言文字应用研究所) 机 器 翻 译 语 言 研 究与 ·语言信息处理· 38· · 《术语标准化与信息技术》2007年第4期 等机器翻译系统。笔者在法国期间研究了从汉语 到世界主要流行语种的机器翻译,回国之后又研 究了从世界主要流行语种到汉语的机器翻译,他 在短短的几年时间内,日以继夜地辛勤钻研,废 寝忘食地艰苦探索,笔者在汉语和世界主要流行 语种的自动以及自动生成两个最基本的方 面,积累了初步的经验,对于这些语种在自然语 言计算机处理中的主要问题和难点,进一步有了 具体的了解和切身的体会。在这个时期,笔者把 汉语和世界主要流行语种在计算机处理中的许 多关键性的问题,在脑子里都反复思考过了,在 计算机上都具体实践过了,笔者深深地感受到建 立机器翻译系统是多么的困难和艰巨,同时也认 识到短语结构语法对于自然语言自动分析的弱 点和不足。笔者在研究的实践中,针对短语结构 语法的不足,在理论上提出了基于复杂特征运算 的“多叉多标记树形图模型”(Multiple-branches andmultiple-labelsTreeModel,简称 MMT模 型),这是世界上最早提出的基于复杂特征的计 算语言学基础理论之一,得到了国内外学者的一 致好评。这些都是我国机器翻译研究在复苏期 取得的可喜成果。笔者提出的 MMT模型,在 COLING-90上正式发表,得到了国际学术界的 承认。 但是,由于资金和条件的限制,笔者研制的 这些机器翻译系统还是探索性的,词典的规模只 包括了这些语言的基础词汇,语法规则只能覆盖 这些语言基本的语法现象,系统虽然有一定的翻 译能力,也能在一定程度上处理多义词、兼类词 和句法结构的歧义问题,但是,还不能翻译那些 结构复杂、多层嵌套的长句子,不能处理长距离 的依存关系和代词的指代等复杂问题,也不能翻 译专业文献,因此,研制的这些机器翻译系统都 是试验性系统,还不可能达到实用化和商品化的 水平。 1987年至现在是繁荣期。这个时期是以“译 星1号”机器翻译系统的问世为标志的。继“译星 1号”之后,一系列的实用化商品化的机器翻译系 统如雨后春笋般地推向市场,我国的机器翻译迈 向了实用化和商品化的阶段。 基于语料库的机器翻译 1993年7月在日本神户召开的第四届机器翻 译高层会议(MTSummitIV)上,英国著名学者哈 钦斯(J.Hutchins)在他的特约报告中指出,自 1989年以来,机器翻译的发展进入了一个新纪元。 这个新纪元的重要标志是,在基于规则的技术中 引入了语料库方法,其中包括统计方法,基于实例 的方法,通过语料加工手段使语料库转化为语言 知识库的方法,等等。这种建立在大规模真实文本 处理基础上的机器翻译,是机器翻译研究史上的 一场革命,它将会把自然语言的计算机处理推向 一个崭新的阶段。 现在我们已经进入21世纪,语料库方法已经 渗透到了机器翻译研究的各个方面,一些基于语 料库的机器翻译系统已经建立起来,有的系统把 基于语料库的方法和基于规则的方法巧妙地结合 起来,取得了可喜的成绩。 2000年,在约翰·霍普金斯大学(JohnsHop- kinsUniversity)的暑假机器翻译讨论班(Work- shop)上,来自南加州大学、罗切斯特大学、约翰· 霍普金斯大学、施乐公司、宾西法尼亚州大学、斯 丹福大学等学校的研究人员,对于基于统计的机 器翻译进行了讨论,以年轻的博士研究生奥赫 (FranzJosefOch)为主的13位科学家写了一个总 结报告(FinalReport),报告的题目是《统计机器翻 译的句法》(“SyntaxforStatisticalMachineTrans- lation”),这个报告提出了把基于规则的方法和基 于统计方法结合起来的有效途径。 奥赫在国际计算语言学 2002年的会议(A- CL2002)上发表论文,题目是:《统计机器翻译的分 辨训练与最大熵模型》(“DiscriminativeTraining andMaximumEntropyModelsforStatisticalMa- chineTranslation”),进一步提出统计机器翻译的 系统性方法,获ACL2002大会最佳论文奖。 目前,统计机器翻译已经成为机器翻译研究 的主流。 根据Google的调查,统计机器翻译论文发表 的情况如图1所示。 可以看出,统计机器翻译的论文是成线性增 长的,其增长速度越来越快。 ·语言信息处理· 39· · 《术语标准化与信息技术》2007年第4期 评测指标[%] 基于网络上的 219B的单词训 练的语言模型 21 9B 图3 英语-阿拉伯语机器翻译系统的质量随着语言 模型训练数据的增大而提高 图 1 统计机器翻译论文增长情况 根据美国 NIST(NationalInstituteofStan- dardization&Technology)组织的统计机器翻译评 测,汉语-英语机器翻译系统和阿拉伯语-英语机 器翻译系统的BLEU指标如图2所示。 可以看出,统计机器翻译的质量正在逐年提 高。 统计机器翻译的质量与语言模型的规模有密 切关系。随着语言模型训练数据的增大,机器翻译 的译文质量相应提高。如图3所示。 2003年 7月,在美国马里兰州巴尔的摩 (Baltimore,Maryland)由美国商业部国家标准与技 术研究所NIST/TIDES(NationalInstituteofStan- dardsandTechnology)主持的评比中,奥赫获最好 成绩,他使用统计方法,在很短的时间之内就构造 了阿拉伯语和汉语到英语的若干个机器翻译系 统。伟大的希腊科学家阿基米德(Archimedes)说 过:“只要给我一个支点,我就可以移动地球。” (“Givemeaplacetostandon,andIwillmove theworld.”)而现在奥赫也模仿着阿基米德说:“只 要给我充分的并行语言数据,那么,对于任何的两 种语言,我就可以在几小时之内给你构造出一个 机器翻译系统。”(“Givemeenoughparallelda- ta,andyoucanhavetranslationsystem forany twolanguagesinamatterofhours.”)这反映了新 一代的机器翻译研究者朝气蓬勃的探索精神和继 往开来的豪情壮志。看来,奥赫似乎已经找到了机 器翻译的有效方法,至少按照他的路子走下去,也 许有可能开创出机器翻译研究的一片新天地,使 我们在探索真理的曲折道路上看到了耀眼的曙 光。过去我们研制一个机器翻译系统往往需要几 年的时间,而现在采用奥赫的方法构造机器翻译 系统只要几个小时就可以了,研制机器翻译系统 的速度已经大大地提高了。 语音机器翻译 近年来,国外开始自动翻译电话的研究,在日 本关西地区成立了自动电话研究所(Interpreting TelephoneResearchInstituteInternational,简称 ART),其目的在于把语音识别、语音合成技术用 于机器翻译中,实现语音机器翻译。 语音机器翻译的原理如图4所示。 1987年 10月在瑞士日内瓦召开的 TELE- COM’87会议期间举办的最新通信技术国际展览 会上,表演了自动翻译电话试验。他们把机器翻译 系统与办公用通讯网(NTT,KDD,PTT)等结合起 图2 统计机器翻译系统的BLEU指标逐年提高 图4 语音自动翻译的原理 ·语言信息处理· 40· · 《术语标准化与信息技术》2007年第4期 来,利用通信卫星,在瑞士与日本之间通话,在日 本的通话者讲日语,在瑞士的通话者可以听到经 过机器翻译得到的相应的英语口语译文,在瑞士 的通话者讲英语,在日本的通话者可以听到经过 机器翻译的相应的日语译文。自动翻译电话通话 试验,一时引起轰动。 近年来,中国科学院自动化研究所模式识别 国家重点实验室(NLPR)与韩国电子通信研究所 (ETRI)合作,进行了汉语和韩语的口语翻译实验, 在北京打电话用汉语,在韩国大田的ETRI听到的 是韩语,在韩国大田打电话用韩语,在北京听到的 是汉语,这样的成绩令人鼓舞。不过,由于机器翻 译、语音的识别与合成都是十分困难的技术,集这 些困难技术于一身的自动翻译电话的实用化不是 可以一蹴而就的。 为了开发语音自动翻译系统,国际上建立了 国际语音翻译联盟(ConsortiumforSpeechTrans- lationAdvancedResearch,简称C-STAR)的组织, 2000年10月,中国科学院自动化研究所国家模式 识别实验室(NationalLabofPatternRecognition, NLPR)成为了该组织的7个核心成员之一。 C-STAR使用一种中间转换式(Interchange Format,简称 IF),各个成员国分别研制本国语言 到IF的分析和生成。C-STAR使用中间转换式IF (InterchangeFormat)来建立的翻译框架如图 5所 示。 C-STARIII的目标是研制语音的实用技术, 为旅游提供口语翻译的技术支持,在任何地方,任 何时刻都能够进行翻译服务。 当然,要实现这个目标是很困难的,目前,语 音识别的质量还不高,在噪声环境下,识别效果还 不好,但是,语音合成已经接近实用水平,而文字 的输入和自动翻译已经达到一定的水平,因此,可 以考虑把文字输入、机器翻译和语音输出结合起 来。 2006年8月由北京首都信息发展公司(首信) 开发的“北京城市指南(Beijingcityguide)”是一 个多语言的手机翻译系统。 外国人在手机上输入英文:“IwanttoBeijing Hotel”,手机自动翻译为中文的口语:“我想去北 京饭店”。中国人在手机上输入中文:“欢迎你来 北京”,手机自动翻译为英文的语音:“Youare welcometoBeijing”。这样,使用不同语言的人就 可以使用手机进行交际了。这样的技术将在 DO (DigitalOlympic)项目中使用。 可以看出,机器翻译涉及到语言的形态分析、 句法分析、语义分析、篇章分析、语音识别、语音合 成等各个方面的内容,对于语言学研究提出了新 的要求,推进了信息时代语言学研究的进一步发 展。 在二十一世纪,机器翻译已经从梦想变成了 活生生的现实。机器翻译正在从实验室走向市场, 成为信息时代人们生活中的助手,帮助人们克服 语言障碍。我们应当继续努力,进一步加强面向机 器翻译的语言学研究,机器翻译的前景是无比光 明的。 参 考 文 献 [1]冯志伟.机器翻译研究[M].北京:中国对外翻译出版公 司,2004. [2]冯志伟.机器翻译今昔谈[M].北京:出版社,2007. [3]冯志伟.自然语言机器翻译新论 [M].北京:语文出版 社,1995. ·语言信息处理· 图5 C-STAR翻译框架:使用中间转换式IF 41· ·
/
本文档为【机器翻译与语言研究_下_】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索