基于垂直搜索技术的竞争情报采集系统的设计与实现
Design and Implementation of Competitive Intelligence Collecting System Based on Vertical Search Technology
本文介绍了上海市化工科学技术情报研究所开发建设的基于垂直搜索技术的竞争情报采集系统的设计与实现过程.首先,本文简要介绍了论文研究的背景和课题来源,通过介绍国内外竞争情报分析软件或平台的现状,说明了竞争情报采集系统的特点-具有搜索引擎与检索对接的特点.上海市化工科学技术情报研究所长期承担了行业情报信息的研究和发布工作,开发建设本系统具有积极的应用价值.针对市场上的同类产品存在的不足情况,在研究目标中提出了五个方面的改进设想.其次,本文详细介绍了通用搜索引擎的工作原理,搜索引擎实现的主要功能模块,为本文后续章节的论述提供了理论依据.随后,本文通过通用搜索引擎与垂直搜索引擎的比较,说明了垂直搜索引擎比通用搜索引擎具有"专、精、深"的特点,是特定行业领域、专业信息机构等开展网络信息资源开发和服务的应用工具.本文还分别介绍了对于实现垂直搜索引擎的关键技术,这些知识的介绍为设计和实现行业竞争情报采集系统具有明显的针对性,是后续章节的总纲.最后,重点介绍了基于垂直搜索技术的竞争情报采集系统的设计和实现过程.从词表库的建立、信息和数据的采集、信息检索和用户界面设计模块逐一做了论述,其中信息和数据的采集模块和信息检索模块是本文的论述重点.信息和数据的采集模块中介绍了人工信息和数据的录入,网页信息和数据自动采集中的"蜘蛛"程序编写;信息检索模块中重点介绍了搜索引擎倒排序技术的实现,而对于本文数据统计与分析和后台数据库管理模块本文作了略述.本系统建设和实现过程中,并不一味的追求理论过程中每一步过程,而是结合本系统的硬件环境和信息采集特点,提出了工作中的创新点,有选择的将几个功能进行合并操作.如在网络信息的自动采集过程中,将信息采集和页面抽取、词性标注等合并在同一段程序中实现,压缩了信息采集和识别的时间,节省了服务器的开销.本系统的设计与实现是上海市化工科学技术情报研究所竞争情报分析平台的重要组成部分,为今后进一步开展基于人工智能技术的竞争情报分析系统的开发做了前期研究,为后期系统开发积累了更多的经验和体会.
- 作者:
- 王晶
- 学位授予单位:
- 上海交通大学
- 专业名称:
- 软件工程
- 授予学位:
- 硕士
- 学位年度:
- 2011年
- 导师姓名:
- 李治柱;钱飞他
- 中图分类号:
- TP391.3;TP274.2
- 关键词:
- 垂直搜索引擎;网络爬虫;采集;竞争情报;设计
- Vertical search engines;Web crawlers;Collecting;Competitive intelligence;Design