Hadoop平台下基于快速搜索与密度峰值查找的聚类算法

来源 :福建师大福清分校学报 | 被引量 : 0次 | 上传用户:wwwroot123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对K-means并行化算法中需要人为初始化起始中心点以及每次迭代都要重复计算所有点与中心点距离的低效率问题提出了一种基于快速搜索与密度峰值查找的并行化算法.采用了"化整为一"原则对算法进行并行化处理,即将每个节点的Map阶段得到的局部CFSFDP聚类结果集中的每个簇视为一个待聚类样本点,在Reduce阶段将这些样本点再进行一次CFSFDP聚类,从而能够快速的将相似的簇聚集在一起归并为同类别.采用Hadoop平台下的并行编程方法,以海量的新闻信息聚类进行实验.实验结果显示,嵌入了基于快速搜索与密度峰值查找
其他文献
目的:探讨腹腔镜十二指肠憩室旷置术在十二指肠憩室患者治疗中的应用效果。方法:选取我院2016年3月~2018年2月收治的92例十二指肠憩室患者为研究对象,根据手术方案不同分为常
“渡来人”和日本文化(三)大连外国语学院古月在日本历史上,作出了不可磨灭的功绩、书写了不朽的篇章。可以说日本历史上每一次文化(文化创造),每一项(技术革新)都离不开「渡来人」,可
目的:探究妊娠高血压疾病终止妊娠的相关因素。方法:回顾性分析2014年1月~2018年1月期间某院收治的517例妊娠高血压疾病患者的临床资料,其中156例患者终止妊娠设为终止妊娠组
郭勇教授系浙江中医药大学教授、博士生导师,浙江中医药大学附属第一医院(浙江省中医院)肿瘤内科主任、主任医师,美国临床肿瘤学会(ASCO)会员、欧洲肿瘤内科学会(ESMO)会员。郭老师
应用基于标准保留株数的毛竹林资产评估新方法,对峡江县戈坪林场花园工区Ⅱ林班2小班14 hm2毛竹成林资源资产进行评估,因该小班保留株数小于标准保留株数,用收益现值法求算出
提出了一种多目标混合优化的阈值图像分割算法。该方法以类间方差函数和模糊熵函数为待优化目标函数,为了改善粒子群算法在迭代后期陷入局部最优的问题,在粒子群算法中引入多
目的比较肛管和气囊导尿管应用于结肠造口灌肠的效果,以寻找最佳灌肠途径。方法将78例结肠造口患者按入院先后顺序随机分为对照组与观察组,每组39例,对照组采用传统硅胶肛管
纤维素酶能够将纤维素分解为葡萄糖。该酶在解决当前世界面临的能源、粮食、环境污染等危机方面具有重要意义。然而,迄今为止纤维素酶活和产率均较低、生产周期长、成本高,都严
<正> 经络辨证是中医学传统的辨证方法之一。《灵枢&#183;经脉》篇是经络辨证的经典准绳,它阐述了以十二经脉为主体的症候分类和症候结构,其理论是建立在确认经络实质存在予
目的分析中药鞣质模拟体系的膜过程污染机制。方法以中药水提液中的鞣质和小分子药效物质(小檗碱、栀子苷)组成的模拟溶液为研究对象,考察不同模拟溶液的膜过程通量、共性高