高级检索
全部 主题 学科 机构 人物 基金
词表扩展: 自动翻译: 模糊检索:
当前位置:首页>
分享到:

基于K-means的微博短文本聚类算法研究
Research of Weibo Text Clustering Algorithm Based on K-means

随着互联网科技的高速发展,各种社交媒体应运而生,如贴吧、QQ、微信、微博等,并迅速融入人们的社会生活.其中,微博因其独特的传播机制,发展最为快速,其用户规模已呈现出爆炸式增长的趋势.大量的数据是微博从规模到用户全面发展的必然结果.这些数据由于与用户日常行为、偏好、习惯直接关联,从而蕴含了大量的、潜在的、有价值的信息.面对这些大规模的用户数据,如何利用其得到能够直接变现的信息成了迫切需要解决的问题.而微博数据的获取是探索虚拟社会的人群社交结构网络、信息传播的内在规律、了解用户的行为偏好的前提条件与支撑.因为微博用户规模大、数据流量大,如何从信息爆炸的微博网站中高效的获取微博数据,成为研究微博信息的首要问题.综上所述,本文通过对微博信息抓取技术的分析与研究,提出了基于微博信息的主题网络爬虫,并高效地获取了微博数据;然后将微博数据均以空间向量的形式进行表示,在此基础上结合K均值算法进行聚类分析,从而得到用户的习惯、偏好、行为、社交等多种数据.本文的主要贡献如下所示:1)关键词库的构建:提出了基于微博信息的关键词库爬虫策略,并设计了实验系统KeysLab,该策略包括以下五大阶段为:样本选取策略、抓取词库样本、样本数据预处理、特征词提取以及构建关键词库.2)主题网络爬虫的改善:提出了基于微博信息的爬虫策略,利用关键词库在传统的主题网络爬虫的基础上进行完善,实验结果显示:该策略有效的提高了获取信息的准确率和覆盖率.3)K均值聚类算法(K-means)的改进:本文使用增量聚类技术修改了K均值算法,解决了传统的K均值算法对聚类初始化状态空间值敏感的难题.

作者:
林红静
学位授予单位:
海南大学
专业名称:
计算机科学与技术
授予学位:
硕士
学位年度:
2016年
导师姓名:
黄梦醒
中图分类号:
TP391.1
关键词:
微博;关键词库;主题爬虫;VSM模型;K-means算法
原文获取
正在处理中...
该文献暂无原文链接!
该文献暂无参考文献!
该文献暂无引证文献!
相似期刊
相似会议
相似学位
相关机构
正在处理中...
相关专家
正在处理中...
您的浏览历史
正在处理中...
友情提示

作者科研合作关系:

点击图标浏览作者科研合作关系,以及作者相关工作单位、简介和作者主要研究领域、研究方向、发文刊物及参与国家基金项目情况。

主题知识脉络:

点击图标浏览该主题词的知识脉络关系,包括相关主题词、机构、人物和发文刊物等。

关于我们 | 用户反馈 | 用户帮助| 辽ICP备05015110号-2

检索设置


请先确认您的浏览器启用了 cookie,否则无法使用检索设置!  如何启用cookie?

  1. 检索范围

    所有语言  中文  外文

  2. 检索结果每页记录数

    10条  20条  30条

  3. 检索结果排序

    按时间  按相关度  按题名

  4. 结果显示模板

    列表  表格

  5. 检索结果中检索词高亮

    是 

  6. 是否开启检索提示

    是 

  7. 是否开启划词助手

    是 

  8. 是否开启扩展检索

    是 

  9. 是否自动翻译

    是