【摘 要】
:
提出改进的并行化谱聚类算法.该算法对于距离矩阵与相似度矩阵进行了改进,并在其中加入了kd树技术以对大规模数据进行稀疏化处理;然后在进行数据特征计算时,将数据以拉普拉斯
【机 构】
:
四川财经职业学院,成都,610101
论文部分内容阅读
提出改进的并行化谱聚类算法.该算法对于距离矩阵与相似度矩阵进行了改进,并在其中加入了kd树技术以对大规模数据进行稀疏化处理;然后在进行数据特征计算时,将数据以拉普拉斯矩阵的方式存入Hadoop之中,通过运行Lanczos分布计算的形式得到了其向量特征;最后运用在聚类算法中的较为高效的k-means聚类算法对向量特征的转置矩阵进行处理从而得到了需要的聚类结果.仿真实验结果表明,本文所提出的谱聚类并行算法能够为大规模的数据挖掘工作带来性能的巨大提升.
其他文献
针对小排量传统化油器式发动机存在的油耗及排放问题,对168F发动机的进气系统进行改进设计与研究.首先对沼气汽油双燃料的发动机进气系统进行改进方案设计,分析计算出进气管
为了提高轮式机器人控制精度,提出了一种新型的机器人速度控制方法.设计了一种基于大脑情感学习的速度误差自适应调节器,通过计算大脑情感数学模型内部节点权值的在线学习,对
高8—22新品系:根据育种目标,选育早熟,抗倒伏,高产质优,抗逆性强,适宜水地栽培品种。1974引种73—7原始材料,前后选择单株,在本院农场,云南省元谋县南育。稳定后,参加三年
序列模式挖掘是数据挖掘领域的研究课题之一,针对传统算法对处理大数据普遍存在扩展性问题.为了改进扩展性,本文提出云模式下基于MapReduce的序列模式挖掘算法(SPAMC),本文设
将贵州省视为主要研究区域对象,其中贵州省包含84个气象站观测点,其周边省份包含9个气象站观测点。对贵州省气象站观测点所观测的近30年(1981~2014年)的风速数据和气压数据进行处理。其中风速数据和气压数据分别为离地10m高度10min内平均最大风速数据以及DEM数据,采用克里金内插方法、协同克里金内插方法及数学建模法绘制贵州30年一遇最大风速分区图。通过对比3种绘制方法的结果表明:在空间分布上
利用英国GDS公司生产的GDS界面剪切仪对固定含水率的黏性土进行扭剪试验,试验中采用3种剪切速率和3种不同法向应力,分析扭剪试验中剪切速率及法向应力对土的力学性能的影响.
甜玉米二号系中国农科院作物育种栽培研究所通过综合杂交、多次混合选择而育成的综合种,属于超甜玉米型。子粒含糖量高达20%左右。(为普通西瓜含糖量的2.5-3.3倍,是无籽西瓜
为了更好的保护图像版权,保护数字媒体版权所有者的合法利益,提出了一种具有强鲁棒性和抗攻击性的数字水印算法.利用Arnold变换数字图像水印信息进行了加密处理,通过像素矩阵
利用湖州3个大气成分监测站的2013-2015年污染物监测数据,分析了O3浓度的变化特征,讨论了O3浓度与五种污染物(PM2.5、PM10、NO2、CO和SO2)的相关性.研究发现:年O3浓度频率呈
电视谈话节目是将人际间就公众关注的新闻人物、新闻事件、热点话题等的口头传播引入荧屏,并将这种传播方式本身直接作为节目的内容元素和形式元素的社教类电视节目形态。电