【摘 要】
:
面对数量庞大的大数据,人们很难从中准确挖掘出自己所需要的部分,因此为提高数据挖掘质量和利用率,对大数据进行采样是十分必要的.为此,研究一种大数据在线多维分层采样技术.
论文部分内容阅读
面对数量庞大的大数据,人们很难从中准确挖掘出自己所需要的部分,因此为提高数据挖掘质量和利用率,对大数据进行采样是十分必要的.为此,研究一种大数据在线多维分层采样技术.首先,对多维数据进行预处理,包括主成分分析的数据降维处理和数据标准格式转换处理;其次,利用k-均值聚类算法进行数据划类分层;最后,采用混合算法实现大数据分层采样.结果表明:与传统随机采样技术相比,通过应用分层采样技术,采样的准确性更高,继而能够改善数据的挖掘质量,提高大数据的利用率.
其他文献
乙型肝炎是目前在食品从业人员上岗体检中发现较多的传染性疾病,e抗原阳性是被乙肝病毒感染的一项重要的判断指标,同时也是正处于传染期的标志.通过大力开展宣传教育、加强卫
政府采购实施12来以来,其采购质量一直备受关注,分析了高校政府采购质量控制点,针对性提出各个控制点的解决思路和办法,在做好防腐倡廉的前提下,实现政府采购的经济性和有效
8月1日至2日召开的全省财政、地税工作会议,向全省各级财政、地税部门提出要求:振奋精神,排难而进,全面完成今年财政、地税工作的各项任务。这次会议的主要内容是:传达、贯彻和落
为提高文本数据分类的准确率,本文基于深度学习提出文本数据分类方法,建立基于深度学习的文本数据分类的结构模型,根据模型构建分类方法的数学模型,对文本数据进行分类处理,
为了提高海量天文信息智能挖掘方法的挖掘准确率,本文基于大数据提出一种新的海量天文信息智能挖掘方法.一方面,利用不同特征提取特征数据,以完全再现已有的干扰数据位置并匹
通过一些数据,将国内外企业、新老字号进行对比,并从民营酒店的家底、发展的三大瓶颈、不良的经营环境,以及自身的众多缺欠等方面探寻其早衰的原因,进而帮助民营餐饮业主更好
一、充分利用闲置空库,增加棉纺织品储备2010年。由于国内外市场棉花供不应求,价格变化较大,国家拿出储备棉供应市场,平抑价格,造成国内许多棉花储备库腾空闲置,养护人员坚持养护,确
目的探究DRGS评价指标在医疗绩效管理中的应用。方法对安徽省一所省级三甲医院2015年1月—2017年12月患者数据使用疾病诊断相关组(diagnosis related groups,DRGS)进行分析,
2018年教育部长陈宝生强调要把学生资助工作摆在更加重要的位置,要求推进学生资助精准化,发挥学生资助育人功效,提升学生资助科学化水平.随着科技的快速发展,大数据技术日渐
在2009年棉花刚刚播种不久,一些涉棉媒体、网络已经开始对未来新棉价格趋势进行预测。的确,2009年的棉花生产是生产面积、农民生产信心变化比较大的一年。全国预计植棉面积7835