基于关联规则的查询扩展技术研究
Query Expansion Technique Based on Association Rules
随着网络信息量的日益剧增,通过搜索引擎找到人们想要的确切信息还存在一定的困难,查询率不高和查准率低,成为搜索引擎迫切需要解决的问题.针对这一问题,本文依据Van Rijsbergen学者提出的利用对原查询进行修改来提高检索能力的观点,对基于关联规则的查询扩展技术进行研究.主要内容如下:1.首先对本文研究的基础内容:数据挖掘、关联规则、查询扩展,进行详细介绍,针对现有的基于关联规则的查询扩展技术进行分析,指出优缺点,针对共性的缺点:现有的基于关联规则的查询扩展算法都不注意关联规则挖掘算法的挖掘效率以及采用的挖掘算法是否适合,作为本文的研究重点.2.针对上述问题,本文首次提出基于最大频繁项目集挖掘的查询扩展算法,算法采用基于向量空间模型的查询技术,对初次检索到的n篇文档进行分词处理,将处理后的分词以垂直数据格式进行表示,采用求交集的方法得到项目集支持度,同时采用集合枚举树数据结构、一定的剪枝策略进行最大频繁项目集挖掘,得到扩展词库;扩展词和初始查询词相结合,进行二次检索.实验证明,同以往算法相比,算法效率得到提高.3.本文提出的基于最大频繁项目集挖掘的查询扩展算法,是假设原查询词和扩展词的重要程度一样的基础上进行的,没有考虑原查询词和扩展词的权重问题;同时最大频繁项目集挖掘,丢失了部分频繁项的支持度信息.针对上述问题,本文提出基于频繁闭合项目集的查询扩展算法.算法采用HT-struct链接结构,采用深度优先搜索策略,结合一定的剪枝技术,挖掘出频繁闭合项目集,得到关联规则,得到扩展词库;算法同时根据规则置信度衡量扩展词的权重.实验证明,算法的效率得到了提高,算法具有可行性.
- 作者:
- 李涛
- 学位授予单位:
- 解放军信息工程大学
- 专业名称:
- 计算机技术
- 授予学位:
- 硕士
- 学位年度:
- 2012年
- 导师姓名:
- 戴青
- 中图分类号:
- TP311.13
- 关键词:
- 搜索引擎;查询扩展技术;关联规则挖掘;最大频繁项目集;频繁闭合项目集
- search Engine;query Expansion technology;association rule mining;maximumfrequent itemsets;frequent closed itemsets