辽宁学术搜索 - 详细信息

	搜索小提示
1、多个搜索词用“+”连接，系统作逻辑或运算处理； 2、系统默认开启中英文互译功能，您可在搜索设置中关闭； 3、在搜索内容加上“半角引号”，系统将对搜索内容做精确检索； 4、多个搜索词用“空格”或“*”连接时，系统做逻辑与运算处理； 5、系统默认开启检索词提示，您可在搜索设置中关闭。

分享到：

基于K-means的微博短文本聚类算法研究
Research of Weibo Text Clustering Algorithm Based on K-means

随着互联网科技的高速发展,各种社交媒体应运而生,如贴吧、QQ、微信、微博等,并迅速融入人们的社会生活.其中,微博因其独特的传播机制,发展最为快速,其用户规模已呈现出爆炸式增长的趋势.大量的数据是微博从规模到用户全面发展的必然结果.这些数据由于与用户日常行为、偏好、习惯直接关联,从而蕴含了大量的、潜在的、有价值的信息.面对这些大规模的用户数据,如何利用其得到能够直接变现的信息成了迫切需要解决的问题.而微博数据的获取是探索虚拟社会的人群社交结构网络、信息传播的内在规律、了解用户的行为偏好的前提条件与支撑.因为微博用户规模大、数据流量大,如何从信息爆炸的微博网站中高效的获取微博数据,成为研究微博信息的首要问题.综上所述,本文通过对微博信息抓取技术的分析与研究,提出了基于微博信息的主题网络爬虫,并高效地获取了微博数据;然后将微博数据均以空间向量的形式进行表示,在此基础上结合K均值算法进行聚类分析,从而得到用户的习惯、偏好、行为、社交等多种数据.本文的主要贡献如下所示:1)关键词库的构建:提出了基于微博信息的关键词库爬虫策略,并设计了实验系统KeysLab,该策略包括以下五大阶段为:样本选取策略、抓取词库样本、样本数据预处理、特征词提取以及构建关键词库.2)主题网络爬虫的改善:提出了基于微博信息的爬虫策略,利用关键词库在传统的主题网络爬虫的基础上进行完善,实验结果显示:该策略有效的提高了获取信息的准确率和覆盖率.3)K均值聚类算法(K-means)的改进:本文使用增量聚类技术修改了K均值算法,解决了传统的K均值算法对聚类初始化状态空间值敏感的难题.

作者：: 林红静

学位授予单位：: 海南大学

专业名称：: 计算机科学与技术

授予学位：: 硕士

学位年度：: 2016年

导师姓名：: 黄梦醒

中图分类号：: TP391.1

关键词：: 微博；关键词库；主题爬虫；VSM模型；K-means算法; Weibo; Keywords library; Topical Web Crawler; VSM; K-means;

原文获取

该文献暂无原文链接!

该文献暂无参考文献!

该文献暂无引证文献!

相似期刊

相似会议

相似学位

作者科研合作关系：

点击图标浏览作者科研合作关系，以及作者相关工作单位、简介和作者主要研究领域、研究方向、发文刊物及参与国家基金项目情况。

主题知识脉络：

点击图标浏览该主题词的知识脉络关系，包括相关主题词、机构、人物和发文刊物等。

作者科研合作关系：

主题知识脉络：

检索设置