云环境下面向隐私保护的密度峰聚类方法研究
在数字化、虚拟化、信息化的发展进程中,各种移动终端和服务器每时每刻都在产生海量的数据。随着云计算的日益普及,云计算技术在数据处理方面提供了强大的计算能力,越来越多的企业将数据存储在云服务器中以节省经济成本。数据挖掘技术可以从海量数据中发现并提取出具有关键价值的信息,然而在云计算环境中进行数据挖掘时,数据中的隐私信息可能会被泄露。因此,如何在保护隐私的同时挖掘出数据中有用的信息具有一定的研究意义。针对聚类挖掘中的隐私保护进行研究,本文主要工作包括以下两个方面:一是每个参与方需要对隐私数据进行加密,并对密文进行安全划分之后上传给云服务器,云服务器对密文进行聚类分析,再把聚类结果返回给用户;二是采用混合云方式帮助用户完成安全计算的任务,解决聚类中的隐私保护会给用户带来额外的计算开销问题。公有云和私有云共同操作,私有云提供秘钥,公有云完成聚类分析。相关研究成果如下:(1)针对在云计算环境下用户隐私信息以及云服务器在聚类过程产生的中间信息可能被泄露的问题,提出一种云计算中的隐私保护密度峰聚类算法,提高聚类的安全性和可用性。首先,云服务商在用户隐私数据未知的情况下计算聚类中心,并且不会泄漏任何聚类中心信息给用户;其次,安全地对用户进行分配,同时防止每个用户获得同一簇中其他成员的隐私信息。云服务器可以在不知晓参与者隐私数据前提下安全地为每个参与者计算最近的聚类中心,并且不会向参与者泄露任何聚类信息,同时参与者不知道同一簇中其他参与者的隐私信息。安全性分析和对比实验表明本文的方案是安全高效的。(2)针对用户在隐私保护聚类过程中计算开销较高的问题,提出一种基于网格的云计算中的隐私保护密度峰聚类算法,提高聚类的准确性和安全性,降低用户计算开销。首先,利用私有云生成的秘钥,客户端使用同态加密方案对数据进行加密;其次,客户端将加密对象上传到公有云,通过公有云来实现一系列的安全协议;最后,云服务端利用网格思想快速找到聚类中心,再将聚类结果返回给客户端并消除扰动。在UCI和真实数据集上的实验结果表明:所提出的方案能够在保护用户隐私的前提下,确保客户端具有较低的计算复杂度,提高了聚类算法的效率和准确率。
- 作者:
- 慈尚
- 学位授予单位:
- 安徽师范大学
- 授予学位:
- 硕士
- 学位年度:
- 2020年
- 导师姓名:
- 孙丽萍
- 中图分类号:
- TP309
- 关键词:
- 密度峰聚类;云计算;隐私保护;同态加密
-