论文部分内容阅读
在大数据时代,需要考虑的第一要务是如何正确合理的使用大数据给日常生活带来便利,同时还需要考虑信息泄露的问题。推荐系统在一定程度上解决了大数据带来的信息过载问题,而差分隐私技术则可以达到信息保护的目的。本文设计了差分隐私保护的K-means聚类算法,它利用差分隐私技术解决K-means聚类中用户隐私泄露的问题。此外,将差分隐私保护的K-means聚类算法与RBM算法结合设计出推荐系统,解决大数据时代的信息过载问题。通过调研了已有的差分隐私K-means聚类算法和相应的推荐算法,重点考虑了两方面的内容。一方面,如何将差分隐私技术应用到K-means聚类中保护用户隐私属性的同时还能够保证聚类结果的可用性;另一方面,如何将差分隐私技术保护的K-means聚类算法与RBM结合设计出一个全新的推荐算法,主要研究工作包括:(1)针对K-means聚类算法中的用户隐私信息泄露问题,本文提出了一种通过聚类合并与适应性添加噪声的高效差分隐私K-means聚类算法。设计思路为:首先,在数据集中选出多于指定聚类个数的数据点作为初始聚类中心点;然后,在每次迭代优化中心点过程中加入适应性的噪声;最后,待聚类稳定后将多个聚类合并为指定数目的聚类。(2)针对大数据背景下的信息过载问题,本文设计了差分隐私保护的K-means聚类与RBM相结合的电影推荐算法。具体的思路为:首先,通过差分隐私保护的K-means聚类算法将数据集中的数据点划分成不同的子类;然后,根据RBM算法对每个聚类各自生成推荐模型。当一个用户有推荐需求时,首先判断该用户所属的聚类,然后根据该聚类对应的推荐模型对用户的行为进行预测,得出用户可能感兴趣的一些项目。