基于K-means的微博短文本聚类算法研究
Research of Weibo Text Clustering Algorithm Based on K-means
随着互联网科技的高速发展,各种社交媒体应运而生,如贴吧、QQ、微信、微博等,并迅速融入人们的社会生活.其中,微博因其独特的传播机制,发展最为快速,其用户规模已呈现出爆炸式增长的趋势.大量的数据是微博从规模到用户全面发展的必然结果.这些数据由于与用户日常行为、偏好、习惯直接关联,从而蕴含了大量的、潜在的、有价值的信息.面对这些大规模的用户数据,如何利用其得到能够直接变现的信息成了迫切需要解决的问题.而微博数据的获取是探索虚拟社会的人群社交结构网络、信息传播的内在规律、了解用户的行为偏好的前提条件与支撑.因为微博用户规模大、数据流量大,如何从信息爆炸的微博网站中高效的获取微博数据,成为研究微博信息的首要问题.综上所述,本文通过对微博信息抓取技术的分析与研究,提出了基于微博信息的主题网络爬虫,并高效地获取了微博数据;然后将微博数据均以空间向量的形式进行表示,在此基础上结合K均值算法进行聚类分析,从而得到用户的习惯、偏好、行为、社交等多种数据.本文的主要贡献如下所示:1)关键词库的构建:提出了基于微博信息的关键词库爬虫策略,并设计了实验系统KeysLab,该策略包括以下五大阶段为:样本选取策略、抓取词库样本、样本数据预处理、特征词提取以及构建关键词库.2)主题网络爬虫的改善:提出了基于微博信息的爬虫策略,利用关键词库在传统的主题网络爬虫的基础上进行完善,实验结果显示:该策略有效的提高了获取信息的准确率和覆盖率.3)K均值聚类算法(K-means)的改进:本文使用增量聚类技术修改了K均值算法,解决了传统的K均值算法对聚类初始化状态空间值敏感的难题.
- 作者:
- 林红静
- 学位授予单位:
- 海南大学
- 专业名称:
- 计算机科学与技术
- 授予学位:
- 硕士
- 学位年度:
- 2016年
- 导师姓名:
- 黄梦醒
- 中图分类号:
- TP391.1
- 关键词:
- 微博;关键词库;主题爬虫;VSM模型;K-means算法
- Weibo; Keywords library; Topical Web Crawler; VSM; K-means;