面向红枣信息资源的爬虫技术研究
在现代互联网技术迅猛发展的时代,互联网上的各类资源呈现出爆炸式增长,网络上积累了丰富的红枣相关信息。传统主题网络爬虫会爬取与红枣主题相关性高的页面,但不能满足用户想要快速、精准、有效获取所需红枣信息的需求。传统主题网络爬虫在页面检索时能够做到只爬取与主题相关性高的页面,但现有传统主题网络爬虫的算法也存在缺点,如容易产生“主题漂移”、对新页面忽视和红枣链接去重效率低等问题。针对红枣类相关页面,结合不同算法的优点对HITS(Hyperlink-Induced Topic Search)算法和链接去重算法进行改进,以使改进后的算法在爬取页面时展现更好的性能。本文的主要研究内容如下:首先,对通用网络爬虫中相关理论和技术进行研究,主要对主题网络爬虫实现中用到的相关技术进行分析,并对页面处理,主题相关度计算等进行分析。其次,在对传统主题网络爬虫技术的研究中发现存在一些问题:1.HITS算法存在对新页面忽视问题和“主题漂移”现象。2.传统内存去重方法对红枣链接去重效率低。针对以上问题对红枣主题网络爬虫中的算法展开研究,结合不同算法的优点对红枣主题网络爬虫算法进行改进,使改进后的算法在爬取红枣页面时展现出更好的性能。再次,对传统主题网络爬虫算法的深入研究,发现现有主题网络爬虫算法的不足并对其进行改进,提出引入时间因素的HITS算法与Shark-Search算法相结合,使得结合后的算法在页面爬取时与红枣主题密切相关,解决传统算法中对新页面忽视问题和消除“主题漂移”现象,提高红枣主题网络爬虫算法查准率和查全率。针对传统内存去重效率低的问题,提出基于Redis的Bloom Filters去重方法,Bloom Filters将红枣链接表示成二进制向量并存储在内存数据库Redis中,提高了红枣链接的去重效率。最后,实现红枣主题网络爬虫系统整体爬取功能,将改进算法应用于关键功能模块的实现。实验结果表明,改进算法在提高红枣主题相关计算和红枣链接去重效率方面是可行有效的。
- 作者:
- 杨广召
- 学位授予单位:
- 塔里木大学
- 授予学位:
- 硕士
- 学位年度:
- 2021年
- 导师姓名:
- 牛荣
- 中图分类号:
- S665.1;S126
- 关键词:
- 红枣主题网络爬虫;HITS算法;Shark-Search算法;Bloom Filters;Redis
-