基于最优分割策略的高性能文本分类方法
A High Performance Text Categorization Method Based on Optimal Division Strategy
进入九十年代以来,互联网得到了极大的发展,产生了海量的非结构化和半结构化文本信息.如何对之进行有效的组织和管理,使用户能方便、准确地查找到所需要的信息,是信息处理的一大目标.基于人工智能技术的自动文本分类已成为信息处理的关键技术,它能根据文本的语义将大量的文本自动分类,有效地解决有关文本信息的组织、管理等关键问题.文本分类的方法很多,典型的有朴素贝叶斯分类器、基于向量空间模型的分类器、基于实例的分类器和用支持向量机建立的分类器等,樊兴华教授等近年来提出了一种基于两步策略的高性能文本分类方法,该方法基于文本模糊区间和文本分割线,但是,该方法还没有深入解决如下问题:①理论上的文本分割线是否就是最优的文本分割线呢?②如果不是,能否设计一种算法或者利用某一经典的算法来寻求最优文本分割线呢?本文提出了一种基于最优分割策略的文本分类方法,该方法将朴素贝叶斯分类器变换为在二维空间中的一条分割线,在分割线临近的文本分类不可靠区间内,利用最优分割线搜索算法寻求最优文本分割线,从而使分类器达到最佳性能.在由12600篇文本构成的中文语料数据集上的实验结果表明,该方法具有较高的分类性能和效率,精确率、召回率和F1-measure值分别达到97.98%,91.05%和94.39%.
- 作者:
- 万狄飞
- 学位授予单位:
- 重庆邮电大学
- 专业名称:
- 计算机软件与理论
- 授予学位:
- 硕士
- 学位年度:
- 2008年
- 导师姓名:
- 王国胤;樊兴华
- 中图分类号:
- TP18
- 关键词:
- 文本分类;遗传算法;最优分割线;文本二维空间;朴素贝叶斯分类器
- Text Classification;Genetic Algorithm;Optimal Dividing Line;Text Two-dimensional Space;Naive Bayesian Classifier
- 基金项目:
- 国家自然基金