【摘 要】
:
为进一步优化推广大数据及人工智能技术,作为数据管理与分析的基础,数据质量问题日益成为相关领域的研究热点.通常情况下,数据采集及记录仪的物理故障或技术缺陷等会导致收集
【机 构】
:
清华大学软件学院,北京100084;大数据系统软件国家工程实验室,北京100084;北京信息科学与技术国家研究中心(清华大学),北京100084
论文部分内容阅读
为进一步优化推广大数据及人工智能技术,作为数据管理与分析的基础,数据质量问题日益成为相关领域的研究热点.通常情况下,数据采集及记录仪的物理故障或技术缺陷等会导致收集到的数据存在一定的错误,而异常错误会对后续的数据分析以及人工智能过程产生不可小视的影响,因此在数据应用之前,需要对数据进行相应的数据清洗修复.现存的平滑修复方法会导致大量原本正确的数据点过度修复为异常值,而基于约束的顺序依赖方法以及SCREEN方法等也因为约束条件较为单薄而无法对复杂的数据情况进行精确修复.基于最小修复原则,进一步提出了多区间速度约束下的时间序列数据修复方法,并采用动态规划方法来求解最优修复路径.具体来说,提出了多个速度区间来对时序数据进行约束,并根据多速度约束对各数据点形成一系列修复候选点,进而基于动态规划方法从中选取最优修复解.为验证上述方法的可行性和有效性,采用一个人工数据集、两个真实数据集以及一个带有真实错误的数据集在不同的异常率及数据量下对上述方法进行实验.由实验结果可知:相较于其他现存的修复方法,该方法在修复结果及时间开销方面均有着较好的表现.进一步,对多个数据集通过聚类及分类精确率的验证来表明数据质量问题对后续数据分析及人工智能的影响至关重要,本方法可以提升数据分析及人工智能结果的质量.
其他文献
1感冒人们平均每年感冒两至五次,多数是在冬天,而每天在一盆热水中加入薄荷与桉油后将较热的毛巾蒙在脸上吸气,有助于防止感冒。
1 Cold People on average two to five tim
为了提高汽车油罐车容量检定的工作效率,研究设计出了一套检定装置,采用容量比较法和流量计法组合或者同时工作的方案,保证测量的准确、可靠,极大的提高了工作效率;溢流水箱
我们知道,无论何种CD、LD机只要能装入小碟,一般都可以加装VCD。因为它的信息码流是兼容的,只要我们能够找到CD、LD机的DSP,并且能够确定DSP的LRCK、BCK、DATA脚,或者能够找
在JJG133-2005《汽车油罐车检定规程》中,关于汽车油罐车检定对外观检查和计量方法做了充分的规定和说明,本文首先对检定规程中检定进行了阐述,分析了规程对检定项目的规定,并在
AV世界真精彩。在“家庭影院”一族中,无论是软件派还是硬件派,有一些沉缅于碟片收藏或是耽乐于器材搭配的烧友乐迷,一味地钻入“犄角”,这就如同焊机派烧友摩机一样,在器材
一、传统教学模式的不足环境艺术是一门综合性的学科,它涉及到建筑、规划、景观、雕塑等方方面面的知识,专业相关课程的信息量很大,要求学生具有空间想象力和空间分析能力。
近年来,随着以数据为中心的应用大量增加,图数据模型逐渐被人们所关注,图数据库的发展也非常迅速,对于用户而言,往往更关心其在使用数据库过程中的效率问题.主要研究如何利用已有的信息进行图数据库的查询预测,从而进行数据的预加载与缓存,提高系统的响应效率.为了使得方法具有跨数据移植性,并深入挖掘数据间的联系,将SparQL查询提取为序列的形式,使用Seq2Seq模型对其进行数据分析和预测,并使用真实的数据集对方法进行测试,实验结果表明,本方案具有良好的效果.
由于具有低存储成本、高效检索、低标注成本等方面的优势,无监督的哈希技术已经引起了学术界越来越多的关注,并且已经广泛地应用到大规模数据库检索问题中.先前的无监督方法
日前,美国全视通(PictureTel)公司在京举办了“会议电视技术及方案研讨会”,详细介绍了PictureTel的市场发展和会议电视发展的最新动态,并向大家介绍了会议电视运行于不同网
建筑工程施工精细化管理作为一项新型的建筑施工管理理念,其重点表现在管理的信息化、数据化、规范化与系统化.在建筑工程施工中应用精细化管理对于整体施工以及管理质量的提