基于度量学习的不完整数据聚类方法研究

被引量 : 0次 | 上传用户:dreamyeah
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,网络中产生了越来越多的数据,在数据收集、传输以及存储的过程中经常会出现问题导致数据出现了不完整性。对于收集到的数据人们很关心其内部的特定关系以及含义,因此数据挖掘技术得到了广泛的应用。聚类分析技术是数据挖掘领域中核心技术之一,然而在面对不完整数据时传统的聚类分析技术效果并不理想。由于Mahalanobis距离度量函数在处理非线性空间变换以及复杂分布的数据时的不足,针对聚类分析中的距离度量问题,本文给出了基于树叶子节点特征表示算法、决策路径特征表示算法,提出了基于随机树结构的度量学习算法。结合树结构的特点,构造非线性的特征,利用非线性的空间变换扩展数据中的隐含结构信息。利用随机树结构的度量学习方法可以很好的降低结构泛化误差,增加结果的稳定性,同时从理论上证明了提出的算法的有效性,并且对比实验的结果体现了本文提出的度量学习方法具有很好的表现。由于基于协同过滤的处理方法以及基于期望最大化的处理方法在针对数据随机缺失的情况下的处理能力不足,本文针对不完整数据往往存在数据缺失的问题,提出了基于自动编码的不完整数据处理算法,算法结合回归分析的思想对不完整数据进行处理。因为传统的回归分析方法需要基于某种特定分布进行预测,并且需要确定输入的形式。本文提出的基于自动编码的不完整数据处理算法可以很好的解决数据的随机缺失情况,并且对于不完整数据的预测和恢复并不需要依赖特定的分布。通过实验对比可以看到,本文提出的不完整数据处理算法可以很好处理不完整数据的预测与恢复任务。在不完整数据进行聚类分析时,单一的聚类方法往往依赖特定的假设,而由于不完整数据的分布的未知性,仅利用单一的聚类方法在实际中效果较差。本文结合不完整数据的特点,利用Graph Laplacian性质生成聚类特征。结合提出的不完整数据处理方法以及基于随机树结构的度量学习方法,利用Graph Laplacian的特性在不完整数据进行聚类分析,从理论上证明了算法在处理聚类问题上的有效性,并且通过在UCI数据集上的对比实验,验证了本文提出的聚类算法可以很好的处理在不完整数据上的聚类任务。
其他文献
矿物油是石油提炼过程的副产物,在食品包装纸的生产过程中和使用回收纤维的过程中都会引入矿物油,从而污染食品。本文主要研究食品包装纸中饱和烃矿物油(MOSH)的迁移行为和安
论文选取以北京和上海为代表的超大城市2015年1月至2017年12月的空气质量指标和入境旅游人次构建面板数据模型,研究空气质量状况对入境旅游规模的影响。结果表明:SO2、PM2.5
在阐述模糊空间的内涵及其对建筑影响的基础上,通过对四川本土传统建筑以及现代建筑中模糊空间的运用的分析,以成都青城山石头院为例,从新的角度来审视空间形式的内涵,并为如
根据电渣炉圆形锭模式结晶器的实际工作情况,介绍其设计参数和设计方法,提出结晶器冷却水流管径的计算公式,结合实例对圆形锭模式结晶器的结构设计和材料选用进行讨论.
综述了近年来在金属硫蛋白研究中应用的分离纯化和检测方法,对各种方法的适用性等特点作了评述。
目的探讨导管接触性溶栓治疗急性期髂股静脉血栓形成的临床疗效。方法回顾性分析我院2008年~2012年期间86例急性期髂股静脉血栓形成患者的临床资料,以下肢周径差变化、静脉通
本文运用DEA方法,在变动规模报酬条件下对Malmquist指数进行分解,对比分析了祖国大陆、台湾地区银行业在2006-2010年的整体生产力变动、技术变动效率、纯技术效率和规模变动
<正>市制有广义和狭义之分①。一般来看,广义的市制是指城市的管理体制,包括城市的行政组织结构、职能结构、管理方式和运行机制。狭义的市制则是指城市的建制制度,也可以称
“红军精神”是川陕苏区历史留给我们的宝贵精神财富 ,是重要的苏区文化现象和自己时代精神的精华 ,是中国先进文化重要的生成因素。今天仍然是推动实践发展的强大精神动力。
应用等价无穷小代换的思想方法,探讨一类含无穷小和差形式的极限的求法.提出利用函数的Taylor展开式等方法,合理选择无穷小的等价形式,保持无穷小的和差整体的阶不变,可以方