兰 : China New Technologies and Products 机器翻译系统发展与研究 计丽丽 信息技术 (安徽理工大学计算机科学与工程学院,安徽淮南232001) 摘要:本文详细地论述了机器翻译研究的发展历程和现状。综述了机器翻译系统的类型和特点。详细地介绍了九十年代以来提出 的一些新的方法以及国内国际研究动态。 关键词:机器翻译;基于规则;基于语料库 中图分类号:H085 文献标识码:B 20世纪70年代,西欧和加拿大开始出现 以追求可读性和忠实性为目标的第二代机器翻 机器翻译研究是一项艰巨的研究课题。自 1954年美国乔治顿大学进行第一次试验以来, 四、机器翻译系统的类型 根据实现机器翻译系统的技术将机器翻译 机器翻译已经发展了五十余年,经历了几起几 落的曲折历程。人们对它的评价毁誉兼有。但不 容忽视的是,经过机器翻译工作者的执着研究 和反复探索,机器翻译无论从理论技术还是从 实际应用方面都取得了长足的进步。 一、机器翻译概况 机器翻译(machine translation),又称为自 动翻译,是利用计算机把一种自然源语言转变 为另一种自然目标语言的过程,一般指自然语 言之间句子和全文的翻译。它是自然语言处理 (Natural Language Processing)的一个分支,与 计算语言学(Computational Linguistics)、自然 语言理解(Natural Language Understanding) 之间存在着密不可分的关系。 整个机器翻译的过程可以分为原文分析、 原文译文转换和译文生成3个阶段。在具体的 机器翻译系统中,根据不同方案的目的和要求, 可以将原文译文转换阶段与原文分析阶段结合 在一起,而把译文生成阶段起来,建立相关 分析生成系统。在这样的系统中,原语分析 时要考虑译语的特点,而在译语生成时则不考 虑原语的特点。在搞多种语言对一种语言的翻 译时,宜于采用这样的相关分析生成系统。 也可以把原文分析阶段起来,把原文译文 转换阶段同译文生成阶段结合起来,建立 分析相关生成系统。在这样的系统中,原语分析 时不考虑译语的牛寺| ,而在译语生成时要考虑 原语的特点,在搞一种语言对多种语言的翻译 时,宜于采用这样的分析相关生成系统。还 可以把原文分析、原文译文转换与译文生成分 别开来,建立分析生成系统。在这 样的系统中,分析原语时不考虑译语的特点,生 成译语时也不考虑原语的特点,原语译语的差 异通过原文译文转换来解决。在搞多种语言对 多种语言的翻译时,宜于采用这样的分析 生成系统。 二、国外机器翻译发展 1954年,由Georgetown大学和IBM公司 合作,实现了第一个真正的机器翻译系统,并且 在IBM纽约总部进行了俄译英公开演示。f【 ] 用IBM一701计算机,把几个简单的俄语句子翻 译成英语。尽管这个系统很小,只有250条俄语 词汇,6条语法规则以及精心挑选的翻译例句, 但是第一次向公众和科学界展示了机器翻译的 可行l生。 20世纪50年代中期,在美国掀起了机器 翻译研究的高潮。这一时期的机器翻译系统主 要采用直接翻译(Direct Translation)方法,一般 都没有进行很好的源语言据法结构分析,而是 主要以词典为驱动,利用词典中的语法和语义 特征来实现翻译。直接翻译方法的栈 是在源 语言分析阶段和目标语言综合(即生成)之间没 有明确的区分,这样的系统被称为第一代机器 翻译系统。 一20一 中国新技术新产品 译系统。这些系统以基于转换的方法为代表,普 遍采用以句法分析为主、辅以语义的基于规则 的方法,采用有抽象的转换表示的分层次实现 策略,综合了多种技术:知识与算法分离,模块 化设计,多种句法分析策略以及语义分析等等, 并且大多引入了人工智能技术,其中许多方法 和技术直到今天仍被沿用。期间比较著名的系 统有:SYSTRAN多语言翻译系统、Weinder系 统、EURPOTRA多国语翻译系统、TAUM—ME— TEO系统等。 20世纪90年代至今,随着Internet的普 遍应用,世界经济一体化进程的加速以及国际 社会交流的日渐频繁,传统的人工作业的方式 已经远远不能满足迅猛增长的翻译需求,人们 对于机器翻译的需求空前增长,机器翻译迎来 了一个新的发展机遇。国际陛的关于机器翻译 研究的会议频繁召开,中国也取得了前所未有 的成就,相继推出了一系列机器翻译软件,例如 “译星”、“雅信”、“通译”、“华建”等。在市 场需求的推动下,商用机器翻译系统迈人了实 用化阶段,走进了市场,来到了用户面前。 三、我国机器翻译发展 中国机器翻译研究起步于1957年,是世界 上第4个开始搞机器翻译的国家,60年代中期 以后一度中断,70年代中期以来有了进一步的 发展。现在,中国社会科学院语言研究所、中国 科学技术隋报研究所、中国科学院计算技术研 究所、黑龙江大学、哈尔滨工业大学等单位都在 进行机器翻译的研究;上机进行过实验的机器 翻译系统已有十多个,翻译的语种和类型有英 汉、俄汉、法汉、日汉、德汉等一对一的系统'也有 汉译英、法、日、俄、德的一对多系统(FAJRA系 统)。at)l,,还建立了一个汉语语料库和一个科 技英语语料库。中国机器翻译系统的规模正在 不断地扩大,内容正在不断地完善。比较有代表 性的系统有:高立英汉翻译系统,IMT/EC英汉 翻译系统,Matrix英汉机器翻译系统,SinoTrans 汉外机器翻译系统等等。 鉴于机器翻译仍具相当市场,中国涉足这 一领域的厂商也不一而足。目前,国内市场上的 翻译软件产品可以划分为四大类:全文翻译(专 业翻译)、在线翻译、汉化软件和电子词典。全文 翻译软件以中软“译星”以及“雅信CAT2.5”为代 表;在线翻译软件主要以“金山快译.net2001”、 华建的“翻译网上通”为代表;汉化类翻译软件 主要以“东方陕车3000”为代表;词典工具以“金 山词霸.net2001”为主要代表。 由于机器翻译在今后需要满足人们在浩瀚 的互联网上方便地进行信息搜集的需求,于是 很多翻译开发者在翻译准确度上下工夫的同 时,开始注重结合用户的使用领域并进行方向 性的开发。根据目前的市场发展看来,在新一轮 的竞赛中,在线翻译前景十分看好。目前,中国 的网民已超4亿,并继续以极l央i塞度增长。 系统划分为直接式,基于规则式,基于语料库式 (基于统计式和基于实例式),以及采用混合策 略引擎的系统。 直接式机译系统也称直译式机译系统,一 般把原句中的词或句子直接替换成相应的译语 的词或句子,必要时对词序进行简单的调整。这 种系统一般难以取得较高的翻译质量,但是实 现技术相当简单,容易开发。 基于规则(rule—based)的系统主要由词典 和规则库构成知识源,世界上绝大多数的机译 系统都采用以规则为基础的策略,一般分为语 法型,语义型、知识型和智能型。 基于语料库(c0rpus—based)的系统是9O年 代以来发展起来的新技术,其特点是采用大规 模的双语语料库作为机器翻译系统的开发基 础。根据所采用的具体技术可以分为基于统计 (stmisifc—based)系统和基于实例(exam— ple—based)系统。 基于统计的机器翻译方法把机器翻译看成 是一个信息传输的过程,用一种信道模型对机 器翻译进行解释。这种思想认为,源语言句子到 目标语言句子的翻译是一个概率问题,任何一 个目标语言句子都有可能是任何一个源语言句 子的译文,只是概率不同,机器翻译的任务就是 找到概率最大的句子。具体方法是将翻译看做 对原文通过模型转换为译文的解码过程。因此 统计机器翻译又可以分为以下几个问题:模型 问题、训练问题、解码问题。所谓模型问题,就是 为机器翻译建立概率模型,也就是要定义源语 言句子到目标语言句子的翻译概率的计算方 法。而 il练问题,是要利用语料库来得到这个模 型的所有参数。所谓解码问题,则是在已知模型 和参数的基础上,对于任何一个输入的源语言 句子,去查找概率最大的译文。 与统计方法相同,基于实例的机器翻译方 法也是一种基于语料库的方法,其基本思想由 El本著名的机器翻译专家长尾真提出,他研究 了外语初学者的基本模式,发现初学外语的人 总是先记住最基本的英语句子和对应的日语句 子,而后做替换练习。参照这个学习过程,他提 出了基于实例的机器翻译思想,即不经过深层 分析,仅仅通过已有的经验知识,通过类比原理 进行翻译。其翻译过程是首先将源语言正确分 解为句子,再分解为短语碎片,接着通过类比的 方法把这些短语碎片译成目标语言短语,最后 把这些短语合并成长句。对于实例方法的系统 而言,其主要知识源就是双语对照的实例库,不 需要什么字典、语法规则库之类的东西,核心的 问题就是通过最大限度的统计,得出双语对照 实例库。基于实例的机器翻译对于相同或相 似文本的翻译有非常显著的效果,随着例句库 规模的增加,其作用也越来越显著。对于实例库 中的已有文本,可以直接获得高质量的翻译结 果。对与实例库中存在的实例十分相似的文本, 信息技术 China New Technologies and Produc:! ts 软件系统时钟级程序的设计 于雪 (辽宁省盘锦市辽河油田通信公司网管中心,辽宁盘锦124010) 摘要:程控交换机特别是小门数程控交换机有着较好的市场前景。由于电力系统对程控交换设备的要求很高,主要要求通信电路具 有稳定可靠、畅通无阻、实时性强、接续速度快、调度功能完善等特点。本文对程控交换系统特别是软件系统时钟级程序进行了研究。 关键词:程控交换机;通信;时钟设计 中图分类号:V553.1+8 文献标识码:A 1引言 可用局数据和用户数据来适应不同的局条件。 低电平,0 。程序设定检测确认周期为200ms。为 程控交换机软件是一种实时陛、并 陛很 2.5软件的可维护性要求采用模块化、结构 了避免由于干扰而引起的误操作,在识别—个 强的软件,其程序复杂l生大,调试困难。由于交 化设计方法,使用数据驱动程序结构,在编程时 用户是否有摘挂机动作时判断是否能连续25 换机业务功能很多,彼此之间关系密切,给交换 尽量采用有意义的标识符常数,建立完备、清晰 个周期(每一个基本周期为8ms)均能检测到该 机软件的设计带来了很大的困难,因此选择合 的文档资料,把易随硬件更新、扩充而变化的软 用户的同一状态,如能够检测到是同一状态则 理的软件结构是整个交换机软件系统设计的关 件部分相分离等都有助于提高软件可维护性。 确定用户动作,并将检测结果送至基本级程序 键所在。程控交换机在电力系统中有着极其重 3软件系统优先级介绍 分析处理(是否转变用户状态由基本级程序分 要的作用,特别是小门数程控交换机有着较好 软件系统的优先级分为:中断级、时钟级、 析处理)。由于每个用户摘、挂机状态只占用一 的市场前景。由于电力系统对程控交换设备的 基本级。 个二进制位,而每次只对—个二进制位进行检 要求很高,主要要求通信电路具有稳定可靠、畅 3.1中断级程序 测会大大降低系统运行效率,所以采用群处理 通无阻、实时性强、接续速度快、调度功能完善 (1)中断程序的两个特点:一是实时l生要求 的方法(每次对8个用户同时进行检测,检测结 等特点。 高;二是事件发生的随机性;(2)中断级程序主要 果送至相应存储单元,然后等待基本级程序处 程控数字交换机是现代数字通信技术、计 用于故障处理和输入辟俞出处理;(3)中断级程序 理)。用户摘挂机状态的检测使用96ms的基本 算机技术与大规模集成电g ̄LS0有机结合的产 由硬件中断启动,一般不通过操作系统调度。 时钟周期,连续保持192ms(2个基本周期)同一 物。先进的硬件与日臻完美的软件综合于一体, 32时钟级程序 状态,CPU才进行判断处理(基本级完成)。由于 赋予程控交换机以众多的功能和特 ,使它与 (1埘钟级程序主要用来发现外部出现的事 硬件设计系统为8用户,因此系统采用群处理 机电交换机相比,有以下优点:(1)体积小,重量 件,时钟级程序对于发现的事件不进行处理,而 方式对用户进行摘挂机状态的检测只需检测一 轻,功耗低。(2)能灵活的向用户提供众多的新型 是将其送入不同的优先级队列等待基本级程序 次。 服务功能。(3)工作稳定可靠,维护方便。(4顺于 处理;(2埘钟级程序由时钟调度程序调度执行, 42拨号脉冲的识别与接收号盘话机送来 采用新型共路信号方式。(5)易于与数字终端,数 而时钟调度程序是由时钟中断启动的。 拨号信息的是脉冲信号,与用户的摘挂机状态 字传输系统连接,实现数字终端、传输与交换的 3.3基本级程序 一样也是用户线的断、续状态。因此这部分设计 综合与统一。 (1)基=奉级程序的功能是对外部发现的各种 仍然使用判别用户线状态的方法来识别拨号脉 本文编制的是时钟级程序,包括不同模式 事件进行处理;(2)应用程序的大部分在运行时 冲。 的定时方式,考虑到采用51单片机作为控制系 构成进程,基本级也称为进程级;(3)呼叫处理各 4-3双音频信号的识别在双音频话机号码 统(指令为串行方式),因此采用了整体时钟控 进程具有较高的优先级,管理与维护程序的大 接收中,由于采用了单片滤波译码芯片 制(基本周期为8ms)的方法。 部分进程优先级较低;(4堪本级程序由任务调 MT8870,因此号码的接收比较简单。MT8870芯 2程控交换软件的基本特点 度程序调度执行。 片从DTMF信号输入至检测识别出其对应的代 程控交换软件的基本特点是:实时『生强、具 4时钟级程序的设计 码的建立时间是40ms左右,因此,采用16ms周 有并发性、适应性强、可靠性和可维护性要求 时钟级程序具有一定的执行周期,又称为 期对其进行扫描(仍然使用8ms基本周期)。由 高。 周期级程序,如摘挂机识别、拨号脉冲识别及各 于此种方式工作过程比较简单,在此就不再详 2.1实时性在正常情况下对实时性要求最 种扫描程序都具有一定的执行周期,均属于时 细介绍。 为严格的是信号接收及信号处理程序(微秒、毫 钟级程序。另外,忙音、回铃音和振铃信号的通 值得说明的是,在用户摘机之初,时钟级程 秒级)。相对而言对实时性要求最低的是运行管 断也是由CPU控制产生,这种控制方式也于时 序对用户同时使用两种拨号检测方法同时进行 理程序(秒级)。 间有关,同样属于时钟级程序。 扫描,直到以一种方式接收到号码之后,才停用 2.2并发性和多道程序运行并发f生就是在 本文完成的是系统软件时钟级程序的设 另一种收号方式。由于硬件系统只提供了两路 同一时间段内CPU运行多道程序。采用多道程 计,主要包括对外部事件的检测(摘挂机识别、 双音频收号系统,因此,软件程序就需要对收号 序运行方式可以使CPU在一段时间内保持若 双音频拨号的识别或拨号脉冲识别)和对服务 资源进行分配,这部分功能主要是由基本级程 干进程处于激活状态。不同用户启动的呼叫处 音、回铃音和振铃信号)的时钟通断控 序实现的。 理进程可使用相同的处理代码,各进程的, 制。各种检测方式的时钟周期为:摘挂机识别 5结束语 仅在于它们处理的数据不同。 200ms;双音频拨号识别16ms;拨号脉冲识别 综上所述,CPU对用户状态(信息)的检测 23可靠性的要求可靠性指标是99.8%的 8ms拉间隔识别96ms。各种检测方式均使用基 均是通过8ms的基本周期来完成的。用户摘挂 正确呼叫处理和4O年内系统中断运行时间不 本时钟周期8ms,这样设计可以大大提高系统 机状态采用的是不间断的扫描方式;其它信息 超过2小时。提高可靠性的措施有:(1 r寸关键设 的使用效率。检测结果直接送至基本级程序进 的检测是通过相应的启动标志来进行控制,以 备(如控制系统、交换网络)采用冗余配置;(2)采 行分析处理。由于硬件设置为8用户,相应软件 达到对用户的各种状态在不同周期进行定时扫 用各种措施及时发现已出现的错误,如为软件 也是依照8用户完成控制,如果需要扩充用户, 描的目的。 故障,则采用程序段的重新执行或再启动,予以 软件只需稍做变动即可实现相关功能。 参考文献 恢复。 用户信息检测内容主要包含用户摘挂机状 『1]叶敏程控数字交换与交换网(第2版 .北京: 24适应性的要求(1)为使之能适应不同交 态检测和对用户拨号信息的检测(识别拨号方 北京邮电大学出版社,1998年 换局对交换机的具体要求,在交换机的软件设 式并进行收号)。 『21李文淑毛京丽,石方文.数字通信原理 北京: 计中采用参数化技术,使描述处理逻辑大程序 4.1用户摘挂机状态的检测根据硬件电路 中国人民大学出版社2001年 部分与给出数据处理参量的数据部分分离;(2) 的设置,用户挂机状态为高电平 r,摘机状态为 可以通过类比推理,并对翻译结果进行少量的 and R.Mercer(1993).The mathematics of sta- 中山大学出版社,1997年. 修改,构造出近似的翻译结果。 tistical machine translation:parameter estima— 网李志升,于浩机器翻译系统.哈尔滨工业大学 参考文献 tion.Computational Linguistics,19 263—3 1 1. 出版社. 【1】P Brow ̄S.Della Pietra,V.Della Pietra, [2]周海中.“机器翻译50年”.《语文研究群言集》. [414 ̄译.. 中国新技术新产品 一21—