论文部分内容阅读
随着互联网的高速发展,新型信息发布方式不断涌现,由此所产生的数据正以前所未有的速度“爆炸式”增长。如何处理和分析庞大的原始数据,并将之变成可用知识加以学习和利用,已成为国内外科学家和技术专家共同关注的重要课题。贝叶斯方法提供了丰富的分层模型、不确定的量化及预先的规范,因此其在大规模数据背景下的使用十分具有吸引力。限制迭代的二分K-means算法保留了近似标准二分K-means算法的聚类质量且拥有更高的计算效率,更适用于需要处理速度更快的大型数据集。针对原有核心集构建算法执行效率低的问题,对限制迭代的二分k