知网机器翻译系统的分析与知识库扩展
机器翻译是利用计算机自动将一种自然语言转换成另一种自然语言的过程.目前主流的机器翻译方法有基于规则、基于统计和神经机器翻译等方法,无论是哪种机器翻译方法,语义知识应用到翻译中效果都有所提升,因此近些年来,语义备受机器翻译研究者关注.本文所研究的知网机器翻译系统正是该方法在机器翻译中的一个典型应用.知网机器翻译系统是一个基于知识的翻译系统.该系统的知识库包含知网知识库、公理规则库、翻译规则库,其中知网知识库在机器翻译中作为语言资源,公理规则为词义消歧奠定基础,翻译规则库控制翻译流程中的逻辑语义分析及译文转换生成.本文深入学习了该系统并对系统的理论依据及翻译过程进行概述,在专利、航空、中国日报语料上对系统性能进行测试,分析了知网翻译系统的优势及存在的问题.在存在的十余种问题中,对比得出未登录词和选词对翻译结果影响最为严重,特别是在航空测试语料中这两类问题表现更为突出.为了解决未登录词问题,本文对知网机器翻译系统的知网知识库进行了扩展.提出基于中心词的术语知识库自动构建方法,通过获取术语中心词的DEF来构建术语.而中心词多义的现象普遍存在,本文在知网意义群落消歧中扩展了公理规则,并对术语通过进行上下文特征扩展及译文候选排序方法排除歧义,最终构建的术语加入知网知识库中,翻译结果得到提升.为了解决译文选词问题,本文对知网机译系统的翻译规则库进行了扩展.通过扩展个性翻译规则改善译文选词,设计开发了知网翻译规则动态调试系统,该系统可以辅助用户方便地修改和追加翻译规则.利用扩展后的翻译规则库,翻译选词结果得到明显改善.
- 作者:
- 王琳
- 学位授予单位:
- 沈阳航空航天大学
- 专业名称:
- 计算机软件与理论
- 授予学位:
- 硕士
- 学位年度:
- 2017年
- 导师姓名:
- 蔡东风
- 中图分类号:
- TP391.2
- 关键词:
- 语义知识;知网机器翻译系统;逻辑语义;术语知识库;翻译规则
- Semantic knowledge; HowNet MT system; Logical semantics; Term knowledge base; Translation rule