密度偏差抽样及其在海量数据挖掘中的应用

来源 :2006北京地区高校研究生学术交流会 | 被引量 : 0次 | 上传用户:libq19811022
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
海量的数据信息给数据挖掘带来了新的挑战.在现有的硬件设备(内存)的存储能力相对不足的情况下,如何快速和有效的在海量数据中挖掘有价值的信息,成为现今数据挖掘研究的一个热点.抽样作为数据约简的一种手段,已经被广泛地应用在数据挖掘领域,但所应用的抽样技术主要是简单随机抽样.本文介绍一种新的抽样策略:密度偏差抽样.研究分析了密度偏差抽样的主要思想,特点及其改进方法,进行了对比分析,并对密度偏差抽样在海量数据挖掘中主要是聚类领域的应用进行了深入探讨.
其他文献
本文就如何建设优质生猪产业基地,切实推进我国西部地区养猪业健康发展,做大做强做优生猪产业作一初步的探讨.
改革开放以来,我国的养猪业有了迅猛的发展,养猪总量为世界第一.但与国外相比,我国规模化养猪比例较小,分散养猪出栏率低等,严重的制约我国养猪业的大发展.笔者认为我国分散
本文介绍了海图集的编辑设计理论与方法,确定海图集的内容、分幅、比例尺、编排次序、开本及幅面大小、图面配置,各图幅的比例尺系统、海图投影,编绘的技术方法和程序,海图集
目的:探讨HSPTX(7.5%氯化钠+己酮可可碱)复苏对失血性休克大鼠诱发的急性肺损伤的影响。方法:24只雄性SD大鼠随机分为3组:假失血性休克(Sham)组,乳酸钠林格液(Ringer′s lact
沙可夫同志原名陈微明,別名克夫,浙江海宁县袁花鎮人;1905年10月20日生。幼年时,即富于正义感,对旧社会、旧制度不滿。后因反抗封建家庭的束縛,毅然出走,到上海求学,积极参
自动水位计已经在我们外业测量中得到了广泛的应用,但是由于我们经验不足以及部分仪器在使用一段时间后有零点漂移现象,使得提供的潮位数据不正常,这样我们不得不花许多精力
伴随着中国养猪业由千家万户分散饲养方式,向规模化集约化饲养方式的快速过渡,以商业利润为目的,采用品种优良化、饲养标准化、管理科学化的集中生产方式,生产规格统一、质量
会议
质量管理是软件开发过程中最关键的活动之一,它提供了一系列的活动并以此为依据保证软件过程和产品的质量.软件审查是其中最为有效的手段之一,被广泛的用来及早发现和排除软
SQL只能处理精确查询,为了解决模糊查询问题,文中利用模糊理论申的隶属函数和模糊算子来描述自然语言中的模糊概念,并对SQL进行了模糊扩展,对数据库的模糊查询具有较好的参考
VIVI是bootloader中的通用引导程序,本文介绍了在S3C2410上运行的VIVI的配置和编译,分析了VIVI在硬件加电后的启动流程,并且结合在S3C2410处理器上运行的VIVI源代码对启动流