高级检索
全部 主题 学科 机构 人物 基金
词表扩展: 自动翻译: 模糊检索:
当前位置:首页>
分享到:

基于尾字词典的逆向回溯中文分词技术研究
Reverse Backtracking Research of Chinese Segmentation Based on Last Word Dictionary

中文分词是中文信息处理的第一步,其分词精确度及分词效率是中文信息处理性能高低的关键.在搜索引擎、文字校对、语音识别、机器翻译等中文信息处理技术应用领域,中文分词技术作为其基础,对推动中文信息处理技术的发展,满足各类应用的需求具有十分重大的现实意义.论文介绍了中文分词技术的研究意义、现状以及目前研究工作中存在的难点,对目前几种常用的中文分词技术进行了必要分析.在湖北省教育厅科研项目"基于语义网的半结构化信息抽取技术及其应用研究"的支持下,重点研究了基于字符串匹配的中文分词技术,一方面研究了词典结构的设计,提出了一种记录最大词长的尾字hash结构词典,以达到有效节省存储空间,有助于减少匹配过程中无效匹配出现的次数,进而提高分词效率的设计目标;另一方面重点研究了基于尾字词典的核心算法设计,以消除中文分词切分歧义为目标,根据现代汉语语句中心词偏后、逆向最大匹配分词方法往往比正向最大匹配分词方法精度更高的特点,对已有的逆向最大匹配算法进行了分析改进,实现了逆向回溯最大匹配算法,解决了中文分词过程中存在的部分歧义切分问题,从而有效提高了分词精度.为了验证,采用Access构造完成了一个小型Hash结构的尾字词典,采用Delphi实现了逆向回溯最大匹配算法,并以此作为试验系统,选取人民日报4月16日青海玉树抗震救灾专题报道的三篇原始文章为语料进行了测试,并有针对性地与正向最大匹配和逆向最大匹配两种常见方法进行了分析比较.试验结果证明论文中所设计的分词系统在提高分词效率与消歧方面效果明显.同时,针对试验结果所作的详细分析表明系统能够对大部分交集型歧义字段进行有效切分,而对组合型歧义字段效果不明显.

作者:
梁桢
学位授予单位:
武汉工业学院
专业名称:
机械电子工程
授予学位:
硕士
学位年度:
2010年
导师姓名:
李禹生
中图分类号:
TP391.1
关键词:
中文分词;分词算法;尾字词典;哈希结构;消歧
基金项目:
湖北省教育厅科研项目
原文获取
正在处理中...
该文献暂无原文链接!
该文献暂无参考文献!
该文献暂无引证文献!
相似期刊
相似会议
相似学位
相关机构
正在处理中...
相关专家
正在处理中...
您的浏览历史
正在处理中...
友情提示

作者科研合作关系:

点击图标浏览作者科研合作关系,以及作者相关工作单位、简介和作者主要研究领域、研究方向、发文刊物及参与国家基金项目情况。

主题知识脉络:

点击图标浏览该主题词的知识脉络关系,包括相关主题词、机构、人物和发文刊物等。

关于我们 | 用户反馈 | 用户帮助| 辽ICP备05015110号-2

检索设置


请先确认您的浏览器启用了 cookie,否则无法使用检索设置!  如何启用cookie?

  1. 检索范围

    所有语言  中文  外文

  2. 检索结果每页记录数

    10条  20条  30条

  3. 检索结果排序

    按时间  按相关度  按题名

  4. 结果显示模板

    列表  表格

  5. 检索结果中检索词高亮

    是 

  6. 是否开启检索提示

    是 

  7. 是否开启划词助手

    是 

  8. 是否开启扩展检索

    是 

  9. 是否自动翻译

    是