【摘 要】
:
大数据集成是提供高质量数据进行决策的基础.集成的一个关键环节是根据实体在数据库中的不同元组确定其准确属性值.最新的R-topK方法在数据上实施人工设计的规则确定属性值间
【机 构】
:
中国人民大学信息学院 北京100872
论文部分内容阅读
大数据集成是提供高质量数据进行决策的基础.集成的一个关键环节是根据实体在数据库中的不同元组确定其准确属性值.最新的R-topK方法在数据上实施人工设计的规则确定属性值间的准确程度,得到了相对准确的属性值.然而这种方法在处理多个可能的准确值或设计的规则存在冲突等情况下需要较多人工交互.为此本文提出基于权重规则的WR(Weighted-Rule)方法确定大数据集成中数据的准确属性值.该方法每对属性值间准确程度的判断规则上扩充了权重,在准确值发生冲突时避免了R-topK方法中人工交互干预.本文基于追逐过程设计了约束条件推理算法,并证明它能够在O(n2)内推导出每对属性值间的带权重的准确程度,形成推导准确属性值的约束条件.面对约束条件中可能的冲突,本文提出了目标求解算法,在O(n)时间内从所有属性值组合中搜索最可能的准确属性值.在真实和合成数据集中进行了充分的实验,验证了WR方法的效果和效率.WR方法较R-topK方法在性能上提高了3-15倍,在效果上提升7%-80%.
其他文献
在大数据处理系统中,系统对数据处理效率、安全、稳定性有非常高的要求.为了满足对大数据实时、高效、稳定处理的需求,文章提出了一种接收与处理分离的数据处理模型,数据处理
使匈奴中郎将在东汉皇朝与匈奴族关系史中,是一个颇为重要的问题。但是,目前尚缺乏系统全面的探讨,本文欲述一管之见,就教于方家。 (一) 使匈奴中郎将是因东汉皇朝与匈奴关
为了弥补从大数据技术到行业应用之间的鸿沟,针对当前行业用户对大数据处理平台的持续扩展、一体化和多样性需求,提出了大数据一体机的可扩展性、可定制性和多类型处理模型,
传感器的广泛应用产生了大量的不确定数据流,在聚类应用中,当输入数据为连续型随机变量时,现有基于离散型随机变量的聚类方法无法满足数据流应用在效率和精度上的要求.本文使
本文介绍“衰减”的基本概念,影响“衰减”测量的重要因素,“衰减”测量值与系统反射系数的关系,最后介绍了常用的克服失配与泄漏的方法。
This article introduces the basic
在推荐系统领域中,针对数据集稀疏性问题的研究大都建立在静态数据集的基础上,而实际工业应用中的数据集则往往是动态的并且具有以下两个明显的特征:1)User-Item矩阵维度逐渐
互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长,虽有研究者利用Hadoop架构进行了k-means并行化研究,但由于很难有效满足k-means需要频繁迭代的特点,因此执行
本文从华人文化、艺术精神的实质来剖析在现代社会中的设计观,特别是传统文化思维向现代设计的转换,把传统文化中的精神理念应用到设计之中的详细阐述。本文提出了在设计中注
With the increasing demands of health care,the design of hospital buildings has become increasingly demanding and complicated.However,the traditional layout des
任颐(1840-1896年),字伯年,号小楼(一作晓楼),浙江绍兴市人,是海上画派的首领人物和杰出代表,与任熊、任薰、任预合称“海上四任”,又与蒲华、虚谷、吴昌硕合称“海上四大家