【摘 要】
:
随着信息技术和互联网的发展,各种信息呈现爆炸性增长,且包含丰富的知识.从海量数据信息中挖掘得到有用的知识仍然是一个挑战性的课题.近几十年来,数据挖掘技术,作为从海量数
【机 构】
:
中国科学院智能信息处理重点实验室,中国科学院计算技术研究所; 中国科学院大学;
【基金项目】
:
国家自然科学基金(批准号:61175052,61203297,61035003);国家高技术研究发展计划(863)(批准号:2014AA012205,2013AA01A606,2012AA011003)资助项目
论文部分内容阅读
随着信息技术和互联网的发展,各种信息呈现爆炸性增长,且包含丰富的知识.从海量数据信息中挖掘得到有用的知识仍然是一个挑战性的课题.近几十年来,数据挖掘技术,作为从海量数据信息中挖掘有用信息的关键技术已经引起了广泛的兴趣和研究.但是由于数据规模的增长,以往的很多研究工作并不能有效地处理大规模数据,因此,开发设计或者扩展已有算法使之能处理大规模数据集,已经成为数据挖掘中非常重要的研究课题.近年来,基于云计算的数据挖掘技术研究已经成为一个热点话题,本文中我们研究开发一个基于大规模数据处理平台Hadoop的并行分布式数据挖掘工具平台PDMiner.在PDMiner中,开发实现了各种并行数据挖掘算法,比如数据预处理、关联规则分析以及分类、聚类等算法.实验结果表明,并行分布式数据挖掘工具平台PDMiner中实现的并行算法:1)能够处理大规模数据集,达到TB级别;2)具有很好的加速比性能;3)大大整合利用已有的计算资源,因为这些算法可以在由这些商用机器构建的并行平台上稳定运行,提高了计算资源的利用效率;4)可以有效地应用到实际海量数据挖掘中.此外,在PDMiner中还开发了工作流子系统,提供友好统一的接口界面方便用户定义数据挖掘任务.更重要的是,我们开放了灵活的接口方便用户开发集成新的并行数据挖掘算法.
其他文献
在英汉互译中标点符号的问题是一个大家容易忽视的问题,在翻译过程中严格遵守并灵活运用英汉标点符号规则非常重要。本文从英语标点符号的三项基本功能、英汉标点符号的差异
物联网无缝集成了用户域、信息空间域和物理空间域,实现了"人—机—物"的动态协同,其应用常常涉及到跨业务域甚至跨组织的用户、业务流程和物理实体的实时动态交互.因此,物联
世界各国小学教师培养制度的启示华东师大师范教育研究所陈桂生等近年来,我国小学教育已经发生了急剧变化,随着21世纪的来临,还将发生更大变化。在这种形势下,如何放眼世界,面向未来
本文对120名优秀教师、模范班主任的优秀事迹材料进行了分析,从中归纳出他们的一些典型的、有代表性的心理品质各14条,其中11条是相同的。这项研究仅仅是初步的分析,以后还要
<正> 一、问题的提出 我们曾对智力落后儿童的诊治、病因探讨和流行病学进行研究。通过这项工作,深深体会到:对儿童智力发育迟缓和能力低下的早期发现和评价工作在我国现阶段
英语课堂教学评价对英语教学具有非常重要的功能评价意义与指导价值。在对英语课堂教学评价现状考察和反思的基础上,对英语课堂教学多元化、全段式评价进行了探讨。认为应立
目的评价双源CT在经皮冠状动脉支架置入术后支架内再狭窄的诊断价值。方法计算机检索2005年12月1日~2011年12月30日Pubmed,Embase,Cochrane library,CNKI,CBMdisc数据库,查询
将微课和翻转课堂的教学理念相结合就能够给传统的课堂教学带来巨大的转变,使课堂教学模式进行革新,同时也会给学生的学习方式带来转变,提升学生在学习中的积极性和主动性。
进城经历是农村劳动力从乡村向城市转移过程中的重要环节。调查发现,新生代农民工犯罪在押人员的进城经历与第一代相比有很大区别,突出表现为进城年龄轻,主要和父母家人一起
特种加工技术课程工程背景较强,内容涵盖面较宽,如何激发学生的主观能动性、使学生能够从理论、实践两大方面真正掌握课程内容是在教学实践中需要解决的问题。本文针对特种加