基于并行K-means聚类构建的分布式M-Tree

来源 :2010年全国高性能计算学术年会(HPC china2010) | 被引量 : 0次 | 上传用户:wangke8611
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  并行索引技术是提高相似度检索性能的关键技术之一。结合Beowalf 并行计算集群系统的特点,提出了 一种新颖的分布式M-tree 索引结构。该索引由一系列位于计算节点的小规模子索引组成,并利用k-means 聚类 算法作为数据分发策略的核心,能够准确地检测出数据集的全局邻近度,进而确定需要将哪些对象分发到不同 节点。为了充分发挥集群系统的性能以及在处理大规模数据集方面的优势,提出了分布式M-tree的并行构建算 法和并行k-NN 查询算法。实验结果表明,通过分布式M-tree 及其数据分发策略能够保证各节点的静态和动态 负载平衡,而且并行构建算法和查询算法能够大幅度提高索引的构建速度以及相似度检索的性能。
其他文献
  稀疏矩阵向量乘(SpMV)是一个广泛应用在科学计算和工程计算中的核心操作。在 这篇文章里,我们提出了一个优化稀疏矩阵向量乘的新算法,对具有可变分块模式的稀疏 矩阵,我们的算
“立德树人”既是新时代中国特色社会主义教育的根本任务也是总体目标,我国任何形式的教育以及教育的各个环节都要围绕这个目标来设计.由此应运而生的以新时代中国特色社会主
在期货商品交易市场中,农产品的价格预测是一个重要的研究方向.本文提出一种基于经验模式分解(EMD)、支持向量回归模型(SVR)与长短期记忆模型(LSTM)相互结合的农产品价格预测
5月29日,九部委《关于调整住房供应结构稳定住房价格的意见》(“国十五条”)发布之后,最为各界关注的“两个70%”,在具体落实细则上给各地留下了回旋空间,由此引发了新一轮政
工期在建筑项目施工中占据着非常重要地位,直接决定了建筑工程的成本和质量,因此进一步优化工程工期进度拥有很高的现实意义.本文通过搜集分析国内外相关研究成果,并结合工程
  近年来,计算机硬件技术获得了很大发展,尤其是大内存和多核,但算法效率并没有随着硬件技术的发展 而提高.根本原因是没有充分利用CPU 缓存以及单线程程序设计的局限.在数
会议
在影视动画分镜头设计中画面转场的应用非常广泛,段落与段落之间,镜头与镜头之间,场与场之间都存在转场的设计,画面转场能让镜头段落产生流畅、跳跃、对比、联想等效果,极大
  在网格社区环境下,用户数据可以分布在全网格范围内的各个节点,本文针对目前缺乏社区层的全局 数据管理系统的问题,从云存储的角度出发,设计并实现了一种适应于CNGrid的支持
  字符串匹配是计算科学中研究最广泛的问题之一,已成为信息检索和生物计算等领 域的核心操作.然而受限于CPU的计算能力和存储器访问带宽,传统的串行字符串匹配算 法难以进
会议
诗歌作为一种语言高度凝练的文学艺术形式,在兼具强大的感情表达能力和丰富的思想内涵的同时还具有作者强烈的个人色彩.路易斯.塞尔努达超现实主义时期的诗篇更如此,并且由于