分布式网络搜索引擎的研究与实现
Research and Implementation of Distributed Network Search Engine
由于搜索引擎经济的兴起带动了整个互联网经济的复苏,搜索引擎经济也从另一方面向世人展示了互联网仍潜藏着为人所不知的惊天商机,业界开始将更多的目光放在各搜索引擎的性能和流量等方面的关注上.伴随着信息时代而来的信息爆炸,互联网上的信息每天以指数级的速度增长,各行业以及互联网个人用户纷纷借助于搜索引擎技术来处理数据,小到本地文件的搜寻,大至互联网数据的检索.本文针对不同搜索方案的需求,提出了一种易扩展的分布式搜索引擎的构架,并重点对其进行了设计和实现.论文在详细阐述网络搜索引擎的相关理论和技术的基础上,有针对性地对关键技术进行分析讨论,以实现一个可分布式采集和查询,可以为某一行业以及相关软件系统提供网络数据索引和检索的功能系统为目的.论文主要工作如下:介绍了目前搜索引擎的研究现状、存在的问题以及发展趋势;阐述了搜索引擎的工作原理以及各部分的主要功能;系统介绍了搜索引擎内核实现的原理和相关实现方法.为了能高效、便捷地满足用户的信息需求,弥补传统个性化技术的不足,提出基于语义的自适应网页推荐模式,采用语义本体和用户查询倾向机制构建自适应的语义用户模型,并采用语义质心聚类技术来提高推荐的准确率.实验结果表明,与其它推荐方法相比该算法具有更高的推荐准确率和召回率.在插件机制的基础上,设计实现了一个可扩展,并且可以进行分布式查询的搜索引擎体系结构.每一台索引机器负责特定域名信息的采集和索引,对于存储在不同机器上的网页数据可以进行并行检索.重点阐述了搜索系统框架的实现,在分析系统各模块之间关系的基础上,介绍了各模块的实现原理.总体上,本文论述了基于插件机制的可分布式查询和采集的完整的搜索引擎的设计方法,并且改进了语义网页推荐模式.经验证,所实现的搜索引擎的架构体系具有良好的实用性.
- 作者:
- 张婷
- 学位授予单位:
- 解放军信息工程大学
- 专业名称:
- 计算机应用技术
- 授予学位:
- 硕士
- 学位年度:
- 2011年
- 导师姓名:
- 戴青
- 中图分类号:
- TP391.3
- 关键词:
- 网络搜索引擎;网络蜘蛛;中文分词;分布式搜索;推荐系统
- Search engine;network spider;segment;distributed search;recommendation system