论文部分内容阅读
近年来,随着数据采集和处理等相关领域,比如金融,军事,财务,通讯等方面的发展,不确定性数据的重要性渐渐为人们所认同。
在不确定性数据的研究领域,所面对的挑战可归结为:需要一种有效的机制来表达不确定性数据中元组间的复杂关系,需要一种有效的方法支持不确定性数据上的查询和世系分析,需要一种适应不确定性数据的推理方法。亦即,考虑到不确定性数的特性,从不确定性数据中发现不确定性知识,并将其以某种结构存储下来,以支持关于不确定性数据的一系列操作,如查询处理,世系分析,决策支持等操作。
而本文的目的正是将不确定性数据中所蕴含的概率知识以贝叶斯网这一重要的概率图模型保存下来。考虑到贝叶斯网有成熟的理论背景和大量应用,及强大的概率知识表达能力,所以将贝叶斯网应用到不确定性数据领域是自然而然的。
贝叶斯网的依赖分析方法是一个重要和有效的贝叶斯网结构学习方法。本文实践的重点正是将依赖分析方法引入不确定性数据的贝叶斯网结构学习。在实际应用中,以本文方法学出的贝叶斯网是以x-relation的属性为结点,而每一属性相应取值即为该结点所对应的随机变量的取值。x-relation属性间概率依赖的关系就通过贝叶斯网结点间的有向边记录下来。
为将贝叶斯网引入不确定性数据研究领域,本文的主要工作可归结为以下几方面:
贝叶斯网相关理论和方法要求所处理的数据,必须满足蕴含作为其来源的概率空间中所有样本事件的前提要求。而对于不确定性数据,因为数据缺失或其它原因,并不能满足这一要求。为此,本文提出一个通过缩小不确定性数据来源的概率空间的转化方法,使其满足贝叶斯网的前提要求。
由于不确定性数据是内部关联的数据,本文提出一个相适应的概率计算框架,以有效进行相关概率值的计算,包括条件独立测试的计算。
●依赖模型是展开贝叶斯网相关讨论的前件。通过平移确定数据上依赖模型的定义到不确定性数据,本文给出与不确定性数据相适应的依赖模型定义。
●考虑到不确定性数据的特性,如数据缺失和数据内部关联等,不能将传统的贝叶斯网学习方法直接作用于不确定性数据。经替换传统贝叶斯网学习方法中一部分构成要素,本文给出适应用于不确定性数据的贝叶斯网学习方法。