个性化聚类下基于DBSCAN的密度聚类算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:lym66688
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,数据中蕴含着巨大的价值,机器学习在数据挖掘中表现出卓越的效果,逐渐成为数据挖掘的主要技术。聚类算法是机器学习领域的一个重要技术。在众多场景中有着广泛的应用,例如商品推荐,数值预测。然而在这些场景中数据的数值范围十分广阔,并且都有着定制化的个性服务,在商业数据中的数据中,存在着大量的正向逐渐稀疏的数据。这样的数据集上进行个性化聚类,不仅要求聚类算法适合非均匀大数据,也需要具有结果多样化,高同质化。但是传统的DBSCAN算法对这些需要题捉襟见肘。针对这些需要,论文给出了一个基于DBSCAN算法的非均匀密度有约束扩展优化算法CEAV-DBSCAN(Constrained Extension and Adaptive Varied Algorithm Based on DBSCAN)。面对数值广阔正向逐渐稀疏的非均匀密度数据,论文在DBSCAN算法的理论基础上,加入比例因子,改变邻域的计算方式,实现算法的自适应领域设置。针对聚类结果的个性化、缩小类群提高类别的同质性、增强多样性的需要,在分析DBSCAN算法的类别合并原理后,加入同质因子这一参数,在类别合并前对同质因子进行判断,实现了聚类中合并的可控性、高同质、多样性。最后,对CEAV-DBSCAN的性能做了评估,论文在D31数据集和R15数据集进行聚类实验,并在信用卡用户的真实数据集上做了应用实验。通过分析实验结果可以得到CEAV-DBSCAN算法在对数值广阔正向逐渐稀疏的非均匀密度数据集进行个性化聚类时,比DBSCAN算法具有更高的同质性、多样性。适合解决数据数值广阔正向逐渐稀疏的聚类问题,也适合解决有着有着多样性要求的个性服务场景下的聚类问题。
其他文献
营养钵大苗栽培是指将普通成品苗在营养钵中培育2年以上带有分枝的幼树进行大田建园及其栽培管理的过程。本文针对营养钵大苗在栽培中的成活率、抗再植障碍及早果丰产整形修
上海博物馆(以下简称“上博”)的孙位的《高逸图卷》是极为少数的传世可信的唐代珍品(以北京故宫博物院的藏品为例,只有韩混的《五牛图卷》是无可争议的唐画)。孙位是晚唐画家,会稽
通常,一个45岁的副处长,在北京既非权势人物,也算不上仁途成功者。
在11年生红地球葡萄上,喷施核酸增进型植物营养素叶面肥。结果表明:喷施植物营养素叶面肥的葡萄与喷清水的对照,在果枝率、坐果率、单粒质量、单穗质量、好果率及产量方面均呈极
1采果后施基肥圆铃枣生育期短,再加上花果量多、营养消耗大,采果后及时追施基肥对于增加树体贮藏营养进而促进坐果非常关键。基肥以厩肥、土杂肥为主,需要充分腐熟,有条件的
田径运动项目多,强度大,使神经、肌肉、内脏等器官的活动面广泛。运动成绩与运动员的身体条件有密切关系,因此,什么样的身体条件,适合参加哪些专项训练,这是关系到选材的问题
股票投资的本质就是通过主动承担风险来获取额外的收益。从宏观经济、行业环境、公司经营到股民心态,任何地方出一点偏差,都可以让你亏钱。因此,如果你是一名股票投资者的话,你就
1.1覆盖保墒 覆盖材料有作物秸秆(最好是玉米秸秆)或粉碎的树皮。先将玉米、小麦等秸秆铡碎,待雨过天晴后,距树干50cm处均匀地铺在树盘下,厚度为15-20cm,草上零星压土以防风防火,667m
开发新药是费时、高成本、没有成功保证的。寻找那些有长期专利保护和有很多正在研发中的新药可以分散开发风险的公司。
目前的外汇市场上.对于美元的中期观点出现了相当大的分歧.部分分析师认为,美元经历了2002-2004年连续三年的下跌后.已在2005年止跌.今后上升的空间远大于下跌的空间;另部分分析师