论文部分内容阅读
信息时代中,面临知识爆炸和数据泛滥,人们需要从数据中挖掘出有用的信息、获取所需的知识、并对知识进行推理,为实际中的分析、预测和决策等问题提供科学的依据。数据中蕴含的概率因果关系可以描述各属性变量间的相互依赖、以及依赖关系的不确定性。数据中概率因果关系的表示、挖掘、推理及应用受到许多研究者的广泛关注,成为了智能数据分析、知识发现和不确定人工智能领域中的重要研究方向。
作为描述变量间概率因果关系的有效工具,贝叶斯网被广泛用于知识发现、决策支持、预测分析等领域中。然而,以金融趋势分析、医疗诊断预测、实时交通控制、智能Web数据管理等为代表的实际应用,对高效性或实时性有较高的要求,传统的贝叶斯网由于其精确的表示及推理机制,使其不能较好地满足这些应用的需求。同时,许多应用中,用户往往并不关心过于精确的量化的知识,而仅仅需要知识的定性描述。变量值的增减趋势是变量精确值的抽象,各变量值增减趋势之间的概率因果关系是变量精确值之间概率因果关系的定性描述。
定性概率网是一般贝叶斯网的抽象表示,它通过定性的方法用描述变量值增减趋势的定性影响替代一般贝叶斯网中精确的条件概率参数,简化了概率因果关系的表示、加速了概率因果关系的推理。本文针对前述问题的实际需求,基于定性概率网研究数据中定性概率因果关系的高效挖掘和无冲突推理的关键技术,并将定性概率因果关系的表示及推理机制用于智能Web服务管理中。我们通过实验验证了本文所提出方法的有效性,并开发了相应的原型系统。
本文的主要工作和创新之处总结如下:
●研究了时序数据中定性概率因果关系的挖掘方法。以时序数据为代表,本文基于定性概率网和马尔可夫假设,提出了时态定性概率网模型,给出了时序数据中定性概率因果关系的高效挖掘方法,并提出了高效的环状因果关系表示及发现方法。
该研究从数据中挖掘变量之间存在的概率因果关系,有效地表示了时序数据中各变量在同一时间片内以及连续时间片之间的概率因果关系,有效地克服了专家知识的随意性,也体现了时序数据的动态性和相关应用的高效性要求,能为时序数据建模提供一种有效的支撑技术;本文的方法不仅从一定程度上弥补了已有时序数据挖掘方法在概率因果关系发现方面的不足,也较好地弥补了贝叶斯网、动态贝叶斯网和定性概率网在时序数据因果关系挖掘方面的不足。
●研究了定性概率因果关系的无冲突推理方法。以尽可能减少定性概率网中的含糊知识为目的,本文基于概率测度、粗糙集理论和证据叠加的基本思想,提出了大大消除了不确定影响的带权定性概率网模型及相应的无冲突推理方法。
该研究以定性概率网的实际应用为出发点,基于概率测度扩展了一般定性影响的定义,大大消除了定性概率网中的含糊语义,增加了定性概率网的适用性;基于粗糙集理论从数据学习定性影响的权重,有效地避免了专家知识的主观性;将证据叠加的思想用于定性概率网的推理中,大大消除了推理冲突、增强了定性概率网的实用性。同时,该研究也是粗糙集理论和证据叠加思想在概率因果关系表示及推理方面的新应用。
●研究了将定性概率因果关系用于智能Web服务管理的关键技术。本文基于定性概率因果关系的表示及推理方法,提出了从服务调用历史记录学习Web服务定性概率网的方法,进而提出了Web服务间语义相关性的高效发现方法,以及相关的服务质量度量方法。
该研究从Web服务调用的历史记录中高效地挖掘服务间蕴含的概率因果关系,较好地避免了专家知识的主观性;本文提出的基于定性概率网的服务间语义相关性发现方法,为服务自动发现及合成奠定了基础,为智能Web服务管理提供了一种语义表示及应用的思路。据我们所知,基于概率因果关系研究智能Web服务管理的其它相关工作还未见报道。