【摘 要】
:
随着信息技术、云计算、互联网以及社交网络等技术的不断发展,数据规模呈爆炸态势增长.在海量数据带来丰富信息的同时,如何对海量信息进行高效的预处理成为研究的热点.其中,
【机 构】
:
辽宁大学信息学院; 东北大学计算机科学与工程学院;
【基金项目】
:
国家自然科学基金项目(61472169,61472072)资助;国家科技支撑计划项目(2012BAF13B08)资助;国家“九七三”重点基础研究发展计划前期研究专项项目(2014CB360509)资助;辽宁省科学事业公益研究基金项目(2015003003)资助
论文部分内容阅读
随着信息技术、云计算、互联网以及社交网络等技术的不断发展,数据规模呈爆炸态势增长.在海量数据带来丰富信息的同时,如何对海量信息进行高效的预处理成为研究的热点.其中,对于缺失数据的处理就是数据预处理技术中一项重要的挑战.传统的缺失数据的填补方法大部分都只考虑不完备集中数据完全缺失情况下的填补,然而,在海量数据集中,由于人为或者机械等原因会对数据造成一定程度的损坏,有些数据会完全缺失,而有些数据只是部分缺失,传统的填补方法未对不同程度上损坏的数据进行划分,全部按照完全缺失数据进行填补分析,忽略了部分缺失数据对数据填补结果的影响.因此,提出一种基于泛化中心聚类的填补方法(GCF),采用泛化中心聚类思想对数据进行分簇,并对随机损坏数据与聚类结果一起进行缺失数据的填补,以提高填补后数据集的正确率.实验表明,针对不同缺失度的数据集样本,提出的GCF策略在填补正确率方面都具有良好的表现.
其他文献
国外学者研究发现,过高的诉讼风险将会导致审计师的变更。近年来,国内也掀起了针对审计师的诉讼浪潮。日益增多的诉讼案件已对审计工作产生了影响。诉讼风险的增大是否会导致
美国19世纪著名小说家赫尔曼·麦尔维尔在长篇小说《莫比·迪克》(又名《白鲸》)中充分运用象征主义手法,创造了小说的永久魅力和超时空的文学价值。
随着经济全球化和市场竞争的加剧,供应链管理(SCM)的理论研究和应用研究得到迅速发展。文章针对供应链环境下,我国制造企业AG照明公司来料的质量现状出现问题,指出如何来改善
产业集群是被证实对地区产业发展有十分大的推动作用的一种模式。它具有有利于企业生产者主动提高产品质量、促进技术交流、有利于整个产业实现技术创新、降低企业生产成本等
文章对煤炭企业的思想政治工作进行了研究,并提出了几点建议,如树立创新观念、强化以人为本、坚持先进性、构建和谐文化和拓宽工作渠道等。总体而言,我们要用发展的眼光来审
企业文化是在一个企业的核心价值体系的基础上形成的具有延续性的、共同的认知系统和习惯性的行为方式。正确认识企业文化的内涵以及种类是当前企业文化建设的首要任务。文章
为了解山东省饲料原料及配合饲料中霉菌毒素含量及污染状况,本研究随机采集山东各地饲料原料373份,配合饲料92份,利用直接竞争酶联免疫吸附法分别测定黄曲霉毒素B1(AFB1)、玉米
目的:观察健脾益胃汤对非甾体抗炎药相关性胃病患者(NSAIDs相关性胃病)的临床疗效。方法:参照本病诊断标准,纳入病例60例,随机分为治疗组(30例)和对照组(30例)。治疗组给予中药健脾益胃
检索近5年糖尿病领域中药抗氧化的实验研究文献,对其研究现状进行综述,并对该领域目前存在的问题进行剖析,以期为临床实践提供依据。
用信息化管理来装备企业财务运行,是使财务体系达到科学、规范和高效的手段,也是提高企业财务管理水平、简化劳动力的有效平台。本文在对企业财务信息化管理的概念与目标分析