高级检索
全部 主题 学科 机构 人物 基金
词表扩展: 自动翻译: 模糊检索:
当前位置:首页>
分享到:

面向红枣信息资源的爬虫技术研究

在现代互联网技术迅猛发展的时代,互联网上的各类资源呈现出爆炸式增长,网络上积累了丰富的红枣相关信息。传统主题网络爬虫会爬取与红枣主题相关性高的页面,但不能满足用户想要快速、精准、有效获取所需红枣信息的需求。传统主题网络爬虫在页面检索时能够做到只爬取与主题相关性高的页面,但现有传统主题网络爬虫的算法也存在缺点,如容易产生“主题漂移”、对新页面忽视和红枣链接去重效率低等问题。针对红枣类相关页面,结合不同算法的优点对HITS(Hyperlink-Induced Topic Search)算法和链接去重算法进行改进,以使改进后的算法在爬取页面时展现更好的性能。本文的主要研究内容如下:首先,对通用网络爬虫中相关理论和技术进行研究,主要对主题网络爬虫实现中用到的相关技术进行分析,并对页面处理,主题相关度计算等进行分析。其次,在对传统主题网络爬虫技术的研究中发现存在一些问题:1.HITS算法存在对新页面忽视问题和“主题漂移”现象。2.传统内存去重方法对红枣链接去重效率低。针对以上问题对红枣主题网络爬虫中的算法展开研究,结合不同算法的优点对红枣主题网络爬虫算法进行改进,使改进后的算法在爬取红枣页面时展现出更好的性能。再次,对传统主题网络爬虫算法的深入研究,发现现有主题网络爬虫算法的不足并对其进行改进,提出引入时间因素的HITS算法与Shark-Search算法相结合,使得结合后的算法在页面爬取时与红枣主题密切相关,解决传统算法中对新页面忽视问题和消除“主题漂移”现象,提高红枣主题网络爬虫算法查准率和查全率。针对传统内存去重效率低的问题,提出基于Redis的Bloom Filters去重方法,Bloom Filters将红枣链接表示成二进制向量并存储在内存数据库Redis中,提高了红枣链接的去重效率。最后,实现红枣主题网络爬虫系统整体爬取功能,将改进算法应用于关键功能模块的实现。实验结果表明,改进算法在提高红枣主题相关计算和红枣链接去重效率方面是可行有效的。

作者:
杨广召
学位授予单位:
塔里木大学
授予学位:
硕士
学位年度:
2021年
导师姓名:
牛荣
中图分类号:
S665.1;S126
关键词:
红枣主题网络爬虫;HITS算法;Shark-Search算法;Bloom Filters;Redis
原文获取
正在处理中...
该文献暂无原文链接!
该文献暂无参考文献!
该文献暂无引证文献!
相似期刊
相似会议
相似学位
相关机构
正在处理中...
相关专家
正在处理中...
您的浏览历史
正在处理中...
友情提示

作者科研合作关系:

点击图标浏览作者科研合作关系,以及作者相关工作单位、简介和作者主要研究领域、研究方向、发文刊物及参与国家基金项目情况。

主题知识脉络:

点击图标浏览该主题词的知识脉络关系,包括相关主题词、机构、人物和发文刊物等。

关于我们 | 用户反馈 | 用户帮助| 辽ICP备05015110号-2

检索设置


请先确认您的浏览器启用了 cookie,否则无法使用检索设置!  如何启用cookie?

  1. 检索范围

    所有语言  中文  外文

  2. 检索结果每页记录数

    10条  20条  30条

  3. 检索结果排序

    按时间  按相关度  按题名

  4. 结果显示模板

    列表  表格

  5. 检索结果中检索词高亮

    是 

  6. 是否开启检索提示

    是 

  7. 是否开启划词助手

    是 

  8. 是否开启扩展检索

    是 

  9. 是否自动翻译

    是