高级检索
全部 主题 学科 机构 人物 基金
词表扩展: 自动翻译: 模糊检索:
当前位置:首页>
分享到:

I-nice:一种数据聚类的新方法

聚类是一种通用的数据探索方法。k均值类型的聚类算法适用于高效处理大数据聚类。但是,这些算法需要提前确定簇的数量,并且需要指定初始的簇中心以改善聚类结果。在本文中,我们提出了I-nice,数据聚类的方法,I-nice是识别聚类数和初始聚类中心的缩写。在I-nice方法中,我们将数据集视为一种地形而簇为这种地形中的丘陵。我们为地形指定一个观察者来观察和计算山峰,它们对应于簇的密集区域并反映数据中簇的数量。我们基于I-nice概念开发了两个无参数的聚类算法。使用I-nice方法,我们解决了三个聚类问题。本论文的主要贡献有四个方面。首先,我们提出了I-nice方法来进行数据聚类。I-nice方法通过计算观察点和被观察对象之间的距离将高维数据转换为一维距离数据。距离分布由一组Gamma混合模型(GMM)表示,其通过期望最大化(EM)算法求解。使用Akaike信息标准变体(AICc)选择最佳拟合模型。我们提出了I-nice SO(I-nice with a Single Observation)算法,将模型中的组件数量视为簇的数量,并且使用k-近邻方法(k-)分析每个组件中的对象,以便找到初始的簇中心。对于具有许多聚类的复杂数据集,我们提出了I-nice MO(I-nice with Multiple Observations)算法,该算法结合了多个观察点的结果。其次,我们从未标记的数据中制定了基于I-nice的半监督聚类。提出了一种从未标记数据中选择成对约束的方法,以提高聚类准确性。为此,我们首先使用I-nice方法将未标记的数据聚类成一组初始簇。从簇中选取最具信息性的对象和信息对象,以形成一组成对约束。该方法的优点是选择成对约束不需要数据的标签信息。第三,我们还为簇生存分析定义了基于I-nice的概念漂移检测方法。在这种方法中,我们提出了一种数据流聚类算法I-nice Stream,用于聚类未标记的负载概要数据流。概念漂移检测方法使用修改的Kullback-Leibler(KL)散度从聚类结果计算概念漂移分数。我们根据概念漂移得分估计聚类模式。我们使用生存分析将聚类模式分类为持续、衰落和新兴类型,并检索具有有趣特征的代表性负载概要数据。最后,为了分析负载配置文件数据流,我们提出了一种基于I-nice的半监督聚类集成框架。我们使用名为Inice WMO的加权观察点修改算法I-nice MO,该观察点发现负载概要数据的簇结构。在半监督聚类中,成对约束是从每个簇结构信息中提取的,聚类解的集合是从一组连续数据水平中获得的。然后,定义聚类集成方法以获得最佳聚类解。在实验中,我们使用了合成数据集、真实数据集和实际应用程序负载概要数据。负载概要数据包含2012年从中国广东省制造业收集的21330条记录。实验结果表明,所提出的方法优于几种最先进的算法。

作者:
Md Abdul Masud
学位授予单位:
深圳大学
授予学位:
博士
学位年度:
2018年
导师姓名:
明仲
中图分类号:
TP311.13
关键词:
数据聚类;集群数量;半监督聚类;概念漂移检测;加载概要数据
原文获取
正在处理中...
该文献暂无原文链接!
该文献暂无参考文献!
该文献暂无引证文献!
相似期刊
相似会议
相似学位
相关机构
正在处理中...
相关专家
正在处理中...
您的浏览历史
正在处理中...
友情提示

作者科研合作关系:

点击图标浏览作者科研合作关系,以及作者相关工作单位、简介和作者主要研究领域、研究方向、发文刊物及参与国家基金项目情况。

主题知识脉络:

点击图标浏览该主题词的知识脉络关系,包括相关主题词、机构、人物和发文刊物等。

关于我们 | 用户反馈 | 用户帮助| 辽ICP备05015110号-2

检索设置


请先确认您的浏览器启用了 cookie,否则无法使用检索设置!  如何启用cookie?

  1. 检索范围

    所有语言  中文  外文

  2. 检索结果每页记录数

    10条  20条  30条

  3. 检索结果排序

    按时间  按相关度  按题名

  4. 结果显示模板

    列表  表格

  5. 检索结果中检索词高亮

    是 

  6. 是否开启检索提示

    是 

  7. 是否开启划词助手

    是 

  8. 是否开启扩展检索

    是 

  9. 是否自动翻译

    是