【摘 要】
:
DBSCAN(density-based spatial clustering of applications with noise)算法是基于密度的经典聚类算法,但是该算法应用于高维数据时,常用距离函数不能很好地反映出数据点之
【机 构】
:
南京理工大学计算机科学技术学院; 中国电信江苏公司;
【基金项目】
:
江苏省自然基金资助项目(BK2009489);江苏省青蓝工程资助项目
论文部分内容阅读
DBSCAN(density-based spatial clustering of applications with noise)算法是基于密度的经典聚类算法,但是该算法应用于高维数据时,常用距离函数不能很好地反映出数据点之间的关系,从而可能导致聚类簇不够精确。如果能在高维空间中采用合适的距离度量,将会改善聚类结果。针对上述问题,提出利用近似EMD(earth mover’sdistance,堆土机距离)作为距离测度,通过迭代搜索的方法找出所有直接密度可达对象实现聚类。实验结果表明:在高维文本数据的聚类中,和原来算法相比,改进算法的正确率提高了6%,两者在时间上相差不大;而对低维的Iris数据,改进算法通过EMD改善了实体间的相似性度量,减少了划分为噪声点的数据点个数,平均正确率提高了10%。实验结果表明了改进算法对高维数据的有效性,并可以改善聚类性能。
其他文献
长期投资决策是管理会计当中最为重要的内容,然而其方法至今未能被我国企业普遍应用,这中间与所涉及的指标不易理解和计算不无关系,为此,本文就其几个主要指标给予图释,借以帮助企
回族在明代即以经营工商业著称,在与汉族和其他民族的经济、文化交流中发挥了枢纽作用,从而促进了各民族友好交往关系的发展。
<正>1前言非物质文化遗产是不可再生资源,随着全球化趋势和现代化进程加快,我国的文化生态正在发生巨大变化,文化遗产及其生存环境受到严重威胁。[3]2005年12月,国务院办公厅
介绍了城市污泥性质及常规处理、处置情况,从污泥农林利用、建材化、能源化、制吸附剂、污泥中蛋白质的有效利用及制聚合物复合材料等几方面探讨了国内外污泥资源化利用的现
通过在坝址区进行5组砼与弱风化带下部岩石胶结面现场抗剪试验研究工作,分析了岩体结构、风化程度、砼抗压强度及起伏差对抗剪强度的影响,在进一步分析大坝建基面与试件胶结面抗
我国现行宪法文本中存在着大量的"依照法律"的表述。通过宪法文本的解释方法,可以确定"依照法律"系指"依照全国人大及其常委会制定的规范性法律文件",从中可以推断出我国宪法
针对缓倾斜破碎中厚矿体开采条件,大尹格庄金矿改进原有上向水平分层充填采矿法,试验应用了高机械化、高安全性、高生产效率的盘区机械化上向水平分层充填采矿法,详细介绍了
对新中国成立60多年来我国文化政策演变的结构性梳理发现,从"一元主导、二元对立"到"多元和谐共存"是我国文化政策演变的基本趋势:战略地位上,文化从"边缘"变为"主流";功能定
民事司法自由裁量权,是指民事司法适用的法律不明确时,法官基于一定标准对法律规则自由选择判断的权力。民事司法自由裁量权的存在具有合理性,适用于民事司法全过程。但是,自
CVD法制备的SiC纤维具有抗氧化、高强度、耐腐蚀、耐高温等优点,是增强Ti基体较为理想的材料,具有广阔的应用前景。但由于SiC纤维在与Ti基体热压形成金属基复合材料过程中,会