一种基于Hadoop平台的海量Web数据挖掘系统研究与实现

来源 :第九届中国通信学会学术年会 | 被引量 : 0次 | 上传用户:aidilj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  针对目前Web数据规模的快速增长,传统的基于单机的数据挖掘模式不能胜任当前Web海量数据存储与处理。随着“云计算”技术的兴起,将传统的数据挖掘方法与“云计算”平台融合以提高数据挖掘的效率成为一种研究方向。本文将传统的遗传算法与Hadoop的MapReduce进行融合,针对Hadoop的分布式文件存储系统HDFS中的海量Web数据进行挖掘。为进一步验证该平台的高效性,在该平台上利用融合后的算法挖掘Web日志中用户的偏爱访问路径。实验结果表明,在Hadoop中运用分布式算法处理大量的Web数据,可以明显提高Web数据挖掘的效率。
其他文献
刀间距是全断面岩石掘进机(TBM)的主要参数,也是研究的热点和难题.通过对TBM盘形滚刀实际破岩作业过程分析,以及确定刀间距的盘形滚刀压痕试验、线性切槽试验和圆形滚压破碎
针对交通流量特性和外部因素对交通流量预测结果的影响,提出了一种对城市短时交通流量预测的模型CNN-ResNet-LSTM,将卷积神经网络(CNN)、残差神经单元(ResNet)和长短期记忆循
  本文通过案例对智能制造在现代企业发展中的作用和经济性分析,提出智能制造是更深层次促进工艺技术的成熟与发展,是企业进一步提升竞争能力有效途经。
  为了反映3G网络安全问题,本文提出了基于AHP(层次分析法)及灰色关联分析的3G网络攻击效果评估模型。该模型提出了3G网络攻击效果评估指标体系,并使用层次分析法计算出的各
  The performance requirements of tenting flexible composites for lamp box fabrics are introduced in this paper.The choice of materials and the weaving proces
会议
传统粒子群算法的优点较为明显,但是随着环境复杂度的增高,传统算法的聚类中心敏感度升高,空聚类过多,类标号对聚类结果的影响不足等问题日趋严重.为此,提出了一种改进算法,
实验性矽肺大鼠BALF中透明质酸含量改变及其意义北京医科大学第三医院职业病科(100083)徐希娴,丁丽华,陈明透明质酸(HA)在一些间质性疾病中的病理学意义日益受到重视,曾有报道矽肺患者血清中HA含量
  现有的拓扑布局算法对于大型网络进行布局时,追求节点和边的不重叠性,忽视了网络本身的特性,最终生成的拓扑图不直观,不易用.针对这一问题,将网络中节点到边缘节点集的路径信
  为了保障公司业务支撑系统的稳定运行,实现系统中数据的安全存储备份及恢复,特对informix数据库的几种常用备份与恢复方法进行了比较分析,明确了各种方式的用法、区别、使用
  Today,electronic document security has become the primary problem of many companies,businesses and governments.In order to carry out an efficient and safe m
会议