数据微观不一致性问题的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:llccxx1982
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着数据规模快速增长,数据质量问题日益凸显,已经成为数据库领域的重要研究方向。不一致性是数据质量问题中的一个重要方面,数据质量规则是处理数据不一致性的重要工具。为检测和修复不一致数据,各种约束规则被提出来,包括函数依赖、条件函数依赖、编辑规则以及修复规则等,这些数据质量规则大多规定元组在某些属性上的值能在一定程度上提供该元组在其他属性上值的信息。现有规则都描述宏观不一致性,也就是将每个属性值看做一个不可分割的整体,这也是符合关系数据库的设计规范的。然而在大量的实际应用中,一些属性值中的某一部分就能确定其他属性值,而现有数据质量规则尚未考虑这类重要信息。为了将这类微观信息加以利用,本文提出了一种新的数据质量规则:微函数依赖,用于处理数据中的微观不一致性。围绕数据的宏观不一致性,现有研究主要包括规则的定义及分析、规则的自动挖掘、基于规则检测数据的不一致性,以及基于规则修复数据的不一致性等问题。类似的,本文关于数据微观不一致性的研究也从这四个方面展开:
  首先,为描述微观不一致性,提出了微函数依赖的概念。通过引入提取函数,对微函数依赖进行语法和语义的定义,并研究其基本性质,包括可满足性、蕴含性以及公理系统。可满足性用于判断给定的微函数依赖集是否合法。蕴含性用于判断给定的微函数依赖集是否包含冗余。公理系统是对应蕴含问题的若干推理规则,本文证明了可满足性以及蕴含性的判定问题分别是NP-完全和CoNP-完全的,对可满足性问题分析了其可近似性,最后给出了正确且完备的公理系统。
  其次,本文研究了特定类型微函数依赖的挖掘问题。由于实际应用中大多数的“微信息”都存在于字符串类型的属性值的某一片段中,因此本文只考虑字符串属性上的微函数依赖。这种微函数依赖的约束前件为正则表达式加位置下标的形式。本文通过将字符串按照字符相似性进行聚类和对齐,并归纳成正则表达式形式。聚类过程和对齐过程都是微函数依赖挖掘中的关键步骤,本文证明对齐问题是NP-完全的,并提出一个自底向上的基于合并操作的贪心算法。该贪心算法的优点是能够同时完成聚类和对齐操作,且不需要对聚类问题指定任何参数;其缺点是时间复杂度依然很高。为降低算法运行时间,本文还提出了一些裁剪策略以提升算法效率,并给出理论保障。在多组真实数据和合成数据上的实验结果表明,本文所提挖掘算法能挖出有意义的微函数依赖,裁剪策略也能大幅度提升算法性能。
  再次,本文利用微函数依赖的特性,研究了外存数据对多条依赖违反情况检测的问题。本文研究基于聚簇的数据微观不一致性的检测算法,外存数据的聚簇算法一般通过排序实现。当数据量很大时,通常需要对数据进行多次读写操作。为了降低数据的读写次数,本文结合微函数依赖的特性,研究有多条待检测依赖情况下的中间结果的共享技术。根据适用条件的不同,给出了两个检测任务之间的三种共享技术。在检测任务很多的情况下,形式化定义了以最小化磁盘读写总代价为目标的多检测任务的调度问题。文章证明该调度问题是NP-完全的,并给出了有近似比保证的基于贪心的启发式调度算法。通过实验,证明了本文所提共享技术能很大程度的降低数据读写次数,提升不一致数据的检测速度。
  最后,本文研究了数据微观不一致性的修复问题,同时考虑了数据源之间的宏观不一致性和数据源内部的微观不一致性,前者对应基于真值发现的方法,后者对应基于规则的修复。目前真值发现和数据修复的研究都是独立进行,而很多应用场景下两个问题可能同时存在,在同一个框架中同时考虑两个问题会使分析更加全面。本文提出了一个基于模式分解的方法,在真值发现框架下同时解决数据中违反主键约束的宏观不一致性和违反微函数依赖的微观不一致性,以尽可能的改善数据质量。首先给出了基于微函数依赖的模式分解规则,将关系型数据转换为“源-键-值”的三元组作为真值发现问题的输入。在计算真值发现框架中数据源权重以及候选值的得分时,利用对微函数依赖的违反情况给出相应的计算公式,这些公式中考虑了比以往算法更全面的信息。最后对真值发现的输出进行后处理,得到的最终结果直接满足主键约束以及微函数依赖。在真实数据以及合成数据上的实验结果表明了算法的效果和效率。
其他文献
脊椎动物脊髓内的神经网络是中枢神经系统控制身体动作和行为的重要组成部分。V2居间神经元是脊椎动物脊髓腹侧运动神经网络内的一类将脑部信号转换为协调的身体动作和控制运动速率至关重要的神经元。V2居间神经元发生部位,发育过程和分化类型在脊椎动物中是保守的。在所有脊椎动物中,V2居间神经元都包含激活型V2a和抑制型V2b居间神经元两个亚类。V2a和V2b在分子特征和功能上都不同,但都是由神经管腹侧的P2前
学位
当前,癌症依旧严重威胁着人类健康。据2015年世界卫生组织对全球172个国家人口死因的数据统计,癌症是其中91个国家人口过早死亡(70岁前)的首要或次要原因,是另外22个国家人口过早死亡的第三或第四原因。2018年,结肠癌成为全球发病率排行第四,致死率排行第五的癌症。  许多肿瘤细胞,即使是在氧气充足的条件下,也会优先通过糖酵解途径,而不是经线粒体三羧酸(Tricarboxylic acid,TC
学位
背景:  肺癌是对人类健康和生命威胁最大的恶性肿瘤之一,其每年的发病率和死亡率在所有类型的癌症中是增长最快,且呈逐年上升趋势。人类基因组中98%以上的基因属于非编码RNA(non-codingRNA,ncRNA)。LncRNA是一种至少拥有200个核苷酸的一种不编码蛋白质的RNA。大量研究表明,肿瘤的形成和演进和lncRNA的异常表达有密切的关系。LncRNA的表达在肿瘤组织和细胞中相对于正常的组
学位
植物叶片衰老是一个受到严格遗传调控的程序性细胞死亡过程,受到各种內源信号和环境刺激的影响。丝裂原活化蛋白激酶(Mitogen Activated Protein Kinase, MAPK)级联是真核生物中高度保守的信号通路。在拟南芥中,两个功能高度冗余的MAPKs(MPK3和MPK6)及其上游两个功能也高度冗余的MAPKKs(MKK4和MKK5)组成一条信号级联,在植物生长发育以及免疫反应等生物学
学位
自噬是真核细胞中高度保守的依赖于溶酶体的一种降解途径,能够降解细胞内异常聚集的蛋白以及细胞内受损的细胞器。自噬的异常和人类许多疾病的发生密切相关,如:神经退行性疾病,代谢类疾病及肿瘤等。自噬的发生过程主要分为四个阶段:自噬的起始,自噬体的延伸与闭合,自噬体和溶酶体的融合,自噬底物的降解。这些过程由一系列自噬相关蛋白参与,并受到细胞内自噬诱导信号的调控。近年来研究发现,自噬相关蛋白受到乙酰化修饰的调
目的:本次研究主要利用CRISPR/Cas9基因编辑技术在体外建立SCN1A基因稳定敲除的细胞系并采用RNA-seq分析细胞的基因表达谱的变化。通过检测mRNA水平的变化分析SCN1A与DS发病之间的关联,并希望为Dravet综合症的治疗提供一些线索。  方法:①根据SCN1A启动子区序列设计sgRNA,并构建CRISPR/Cas9敲除质粒(pX459-SCN1A)。②将pX459-SCN1A质粒
学位
随着互联网的普及,人们之间的交流可以通过语音视频等更为直观和更具表现力的方式实现。未来随着5G技术的推进,网络、车载视频、安防和体育录像都将出现井喷式增长,这使得视频内容理解和处理工作面临着巨大挑战。  本文便是在这一研究背景下,期望对复杂视频的内容进行缩减,实现紧凑表达,以促进相关工作的进展。视频内部存在没有效力的视频帧或者片段,而传统方法对视频进行全局描述并未考虑到这种差异。视频紧凑表达的目标
视觉目标追踪是计算机视觉领域的一项基础性研究,其应用场景包括自动驾驶、人机交互、智能视频处理等。尽管对于视觉目标追踪的研究已经取得了很大的进展,但它仍是一个颇具挑战性的问题。其挑战性在于如何依据目标的一个初始状态,来估计后续视频帧中会发生各种变化的目标的状态。本文结合追踪任务的特性,按照先在线信息挖掘和应用后离线先验信息应用的研究路线,从追踪框架的表观模型和决策模型着手,对以下四个问题进行了研究。
学位
自然语言处理是人工智能的重要子学科。作为自动处理文本的第一步,将词转换为数值化表示很大程度地影响了自然语言处理的性能。词向量为自然语言的最小语义单元—词提供了包含句法语义信息的稠密向量表示。作为基于神经网络的自然语言处理的基础,依据词义分布假设构造的词向量给诸多自然语言处理模型带来了性能的提升。为了提高词向量的学习效率,前人工作进一步对词向量进行静态假设,即一个词有唯一的向量表示。这一假设使得在大
随着信息技术的飞速发展,各行各业都迎来了大数据时代。面对如此庞大的数据量,数据管理系统显得尤其重要。数据查询处理技术作为数据管理系统中最重要的组成部分之一,可以快速地、直观地反映数据的各种特性,为用户的决策提供参考和帮助。目前为止,数据管理系统中最常见的查询有Skyline查询、最近邻查询、Top-k查询、聚集查询、Join查询、相似性查询等。其中,Skyline查询是一种重要的多维度偏好查询,在
学位