论文部分内容阅读
为了提高信息检索的精准性,在电力数据搜索引擎中采用K-means算法,并针对K-means算法初始聚类中心的随机性对聚类效果的影响及K值的不确定性带来的聚类结果不稳定的问题,提出了一种改进的K-means算法。该改进算法基于欧氏最远距离选择初始簇心,通过多次聚类探测,对聚类结果的聚类均值总方差进行统计,选取方差值不再减小时对应的K值为聚类数。测试结果证明改进的K-means算法在实现自动聚类的同时聚类效果提高10%,在克服原算法缺点的同时保留了其简单高效的优点。