| 首页 | 杂志简介 | 杂志中英文目录 | 民族语文政策 | 工作纪事 | 研究动态 | 民族语文工作动态 | 图书出版 | 数据库 |


汉蒙机器翻译中的蒙古

语词语法属性描述此项研究获国家863计划项目和国家自然科学基金项目的资助。项目代号分别为:863-306-ZT04-05-3,69963001。

巴达玛敖德斯尔

1998年起,内蒙古大学蒙古学研究院蒙古语文研究所、中国科学院计算技术研究所和北京大学计算语言学研究所共同承担国家“863计划”项目“面向政府文献的汉蒙机器辅助翻译系统”,初步研制、开发了一个面向政府文献(暂以政府工作报告为主)的汉蒙机器辅助翻译系统。本系统的知识库由规则库和词典两个部分组成。其中,机器翻译词典是汉、蒙两种语言的词和固定短语的对照词典,包括一个汉语词语在蒙古语中的各种不同译法(有的可能是翻译成不同词类的词)。词典中充分利用汉、蒙两种语言词语的各种语法属性字段,以保证正确分析汉语词语和正确生成蒙古语词语。

汉蒙机器翻译词典(以下简称“词典”)记录了源语言汉语和目标语言蒙古语具体词项的语法语义信息。其中,源语言的语法语义属性描述详细,目标语言的语法属性描述相对简单。汉语词的语法语义信息主要包括以下三类:基本信息——该词所属词类、语义类等;搭配信息——该词跟其他词的组合能力;功能信息——该词充当句法成分的能力。蒙古语词语的语法信息来自该系统中的蒙古语语言模型中所规定的属性字段和属性值。

词典中用到的现代蒙古语词语分类名称和代码为:

1.蒙古语词类(MCAT)名词N,形容词A,数词M,量词Q,代词R,时间词T,方位词O,动词V,副词D,后置词G,连接词C,语气词S,摹拟词U,情态词H,感叹词I,复合词Y,惯用语B,缩略语L,字符E,后缀F,标点符号W。

2.蒙古语短语分类(MPCAT)名词短语NP,形容词短语AP,数词短语MCP,数量短语MP,时间词短语TP,方位词短语OP,动词短语VP,副词短语DP,副动词短语DVP,后置词短语GP,单句DJ,复句FJ,整句ZJ。

各基本词类的语法属性及其取值在词典中的填写说明如下:

词语WORD中心词NSUBCNPLURNHODLNQUANGENDERXIJILNHEMJ

说明:1.上表用于填写蒙古语名词的语法属性特征。2.“NSUBC”用来说明名词所属子类。有3个值:NPROP(专用名词),NCONT(可数名词),NUCNT(不可数名词)。3.“NHODL”用于说明名词是否有不定N形式,“NQUAN”用来说明名词能否作量词用。在具有该子类特征的栏下填“y”,否则不填。4.在“NPLUR”一栏,填写该名词的复数形式。5.“GENDER”用于说明名词的语音特征。有3个值:MALE(阳性),FEMALE(阴性),NEUTRAL(中性)。6.“XIJIL”用于说明该词是否兼类。如果是兼类填兼类的词性,否则不填。如:名词HELE(舌头)的兼类填V。7.“NHEMJ”用于说明名词参与构成数量词组时,是否必须前接量词。如果接量词填“y”,否则不填。如:ARIHI,填“y”。

词语同形 WORD中心词 ASUBC XNUM XCASE XDEGREE XPRO XIJIL GENDER ATQDV

说明:1.上表用于填写蒙古语形容词的属性特征。2.“ASUBC”一项用来说明形容词所属的子类,有两个值:ACINAR(性质形容词),AHARIC(关系形容词)。3.“XNUM,XCESE,XDEGREE,XPRO”四项用来说明形容词的词形特征:XNUM——“形容词是否有数的变化”;XCESE——“形容词有否格的变化”;XDEGREE——“形容词有无级的变化”;XPRO——“形容词有否领属变化”。如若形容词具有这些变化特征,则在相应的栏内填“y”,否则不填。4.“GENDER”一项用来说明形容词元音的性质。5.“XIJIL”用于说明形容词的兼类情况,如兼类,填兼类的词性。6.“ATQDV”用来说明形容词能否修饰动词,如能填y,否则不填。

词语同形WORD中心词MSUBCXCASEXPROMHODLGENDER

说明:1.上表用于填写蒙古语数词的属性特征。2.“MSUBC”用于说明数词的子类,值有几个:MWORD(蒙古数词),MARB1,MARB2,MARB3(阿拉伯数词)。3.后四个栏的填法和名词一样。

词语同形WORD中心词RSUBCXCASEXPROXNUMRHODLGENDER

说明:1.上表用于填写蒙古语代词的属性特征。2.“RSUBC”用于说明代词的子类,有6值:BEYE(人称代词),JIGA(指示代词),ASAG(疑问代词),OBER(反身代词),TODO(不定代词),HURI(范围代词)。3.“XCASE,XPRO,XNUM”用于说明代词有否格、领属、数的变化。如若代词有这些变化,则在相应栏内填“y”,否则不填。4.“RHODL”用来说明代词是否有不定N形式,如有就填“y”。5.“GENDER“用来说明代词元音的性质。

词语同形WORD中心词OSUBCXCASEXPROXDEGREEGENDER

说明:1.上表用于填写蒙古语方位词的属性特征。2.“OSUBC”用来说明方位词的子类,值有3:ORNER(名词性方位词),ORTEM(形容词性方位词),ORDAY(副词性方位词)。3.“GENDER“用来说明方位词元音的性质,填法同上。

词语同形WORD中心词XCASEXPROGENDER

说明:上表用于填写蒙古语时间词的属性特征。

词语XIJILWORD中心词VSUBCVHIRDVBAIDGENDER

说明:1.上表用于填写蒙古语动词的属性特征。2.“VSUBC”用于说明动词的子类,有6值:VTVS(及物动词),VESE(不及物动词),VTUS(助动词),VTOL(代动词),VDUR(摹拟动词),VH0L(联系动词)。3.“VHIRD,VBAID”用于说明动词能否受程度副词、状态副词修饰。在相应栏下填“y”。4.“GENDER“用来说明动词元音的性质。5.“XIJIL”用来说明该词是否兼类,如果是兼类填兼类的词性,否则不填。如:动词HELE(说)的兼类填V。

词语同形WORD中心词DTODDHARXPROGENDER

说明:1.上表用于填写蒙古语副词的属性特征。2.“DTOD,DHAR”和“XPRO”分别用来说明副词的句法位置特征及有否领属变化:DTOD——“副词能否修饰形容词”;DHAR——“副词能否作属格形式定语”;XPRO——“副词是否有领属变化”。在具有该属性的栏下填“y”,否则不填。3.“GENDER”用于说明副词的元音性质。

词语同形WORD中心词GUILGHARGTQGXPROXIJILGENDERGMHQI

说明:1.上表用于填写蒙古语后置词的属性特征。2.“GUIL,GHAR,GTQG”用来说明后置词的句法位置特征,在相应的栏内写“y”。它们的含义是:GUIL——“后置词能否在动词后面出现”;GHAR——“后置词能否跟在属格形式后”;GTQG——“后置词能否在数词后面出现”。3.“XIJIL”用来说明该词是否兼类,若是兼类,填兼类的词性,否则不填。4.“GMHQI“用来说明后置词能否出现在数词后面,能的话填y,否则不填。

词语同形WORD中心词SVLDNGSVLUGUXCASEXPROGENDER

说明:1.上表用于填写蒙古语语气词的属性特征。2.“SVLDNG,SVLUGU”说明语气词的句法功能。在相应栏中填“y”。代号的含义是:SVLDNG——“语气词能否独立使用”;SVLUGU——“语气词能否出现在句末”。

词语同形WORD中心词CSUBCCUGUCHOL

说明:1.上表用于填写蒙古语连接词的属性特征。2.“CSUBC”用来说明连接词的子类,值有3:CENG(一般连接词),CGE(与GE动词有关联的连接词),CBOL(与BOL动词有关联的连接词)。3.“CUGU,CHOL”说明连接词的句法功能,填法同上:CUGU——“连接词能否出现在句首”;CHOL——“连接词是否只连接句子”。

词语同形WORD中心词USUBC

说明:1.上表用于填写蒙古语摹拟词的属性特征。2.“USUBC”说明摹拟词的子类,值有二:UDAGV(拟声词),UUILE(拟态词)。

词语同形WORD中心词HDAYHUGLHBUTHUGUXIJIL

说明:1.上表用于填写蒙古语情态词的属性特征。2“HDAY,HUGL,HBUT,HUGU”用来说明情态词的句法功能,填法同上:HDAY——“情态词能否修饰动词”;HUGL——“情态词能否充当谓语的组成部分”;HBUT——“情态词能否充当句法成分”;HUGU——“情态词能否出现句末”。3.“XIJIL”用来说明该词是否兼类。如果是兼类,填兼类的词性,否则不填。

词语同形WORD中心词IUGL

说明:1.上表用于填写蒙古语感叹词的属性特征。2.“IUGL”说明感叹词的句法作用,填法同上。

词典通过对上述信息的详尽描述来说明一个词的用法情况。词典中还添加了一些局部规则,尝试以模板的形式解决某些固定结构的翻译问题。

参考文献

冯志伟:《自然语言机器翻译新论》,语文出版社,1995年。

那顺乌日图、刘群、巴达玛敖德斯尔:《关于汉蒙机器辅助翻译系统》,《阿尔泰学报》第11号,2001

年,汉城。

那顺乌日图、刘群、巴达玛敖德斯尔:《面向机器翻译的蒙古语生成》,《自然语言理解与机器翻译》,清华大

学出版社,2001年。

(通信地址:010021呼和浩特内蒙古大学蒙古语文研究所)《民族语文》2002年第4期