基于尾字词典的逆向回溯中文分词技术研究
Reverse Backtracking Research of Chinese Segmentation Based on Last Word Dictionary
中文分词是中文信息处理的第一步,其分词精确度及分词效率是中文信息处理性能高低的关键.在搜索引擎、文字校对、语音识别、机器翻译等中文信息处理技术应用领域,中文分词技术作为其基础,对推动中文信息处理技术的发展,满足各类应用的需求具有十分重大的现实意义.论文介绍了中文分词技术的研究意义、现状以及目前研究工作中存在的难点,对目前几种常用的中文分词技术进行了必要分析.在湖北省教育厅科研项目"基于语义网的半结构化信息抽取技术及其应用研究"的支持下,重点研究了基于字符串匹配的中文分词技术,一方面研究了词典结构的设计,提出了一种记录最大词长的尾字hash结构词典,以达到有效节省存储空间,有助于减少匹配过程中无效匹配出现的次数,进而提高分词效率的设计目标;另一方面重点研究了基于尾字词典的核心算法设计,以消除中文分词切分歧义为目标,根据现代汉语语句中心词偏后、逆向最大匹配分词方法往往比正向最大匹配分词方法精度更高的特点,对已有的逆向最大匹配算法进行了分析改进,实现了逆向回溯最大匹配算法,解决了中文分词过程中存在的部分歧义切分问题,从而有效提高了分词精度.为了验证,采用Access构造完成了一个小型Hash结构的尾字词典,采用Delphi实现了逆向回溯最大匹配算法,并以此作为试验系统,选取人民日报4月16日青海玉树抗震救灾专题报道的三篇原始文章为语料进行了测试,并有针对性地与正向最大匹配和逆向最大匹配两种常见方法进行了分析比较.试验结果证明论文中所设计的分词系统在提高分词效率与消歧方面效果明显.同时,针对试验结果所作的详细分析表明系统能够对大部分交集型歧义字段进行有效切分,而对组合型歧义字段效果不明显.
- 作者:
- 梁桢
- 学位授予单位:
- 武汉工业学院
- 专业名称:
- 机械电子工程
- 授予学位:
- 硕士
- 学位年度:
- 2010年
- 导师姓名:
- 李禹生
- 中图分类号:
- TP391.1
- 关键词:
- 中文分词;分词算法;尾字词典;哈希结构;消歧
- Chinese word segmentation;segmentation algorithm;the last word dictionary;hash structure;eliminate ambiguity
- 基金项目:
- 湖北省教育厅科研项目