论文部分内容阅读
贝叶斯网络是一种被广泛用于不确定性推理和因果建模的概率图模型。学习贝叶斯网络的结构相当于是对因果结构的基本理解,探索网络中变量之间的依赖关系。从观测数据中找到解释数据的最合适的网络模型是具有挑战性的任务,尤其在数据适量时学到一些相似的模型情况下,很难仅依赖数据对他们做出区分,即如何在学出的相似模型中如何准确把握那些不太确定的边。最好的期待是找到一个目标结构或者某个与目标模型等价的网络结构。而在泛化推理过程中,由于从有限数据中进行估计,倾向于更稀疏的结构,能够得到更好的泛化效果,即使该结构不能表示真实的潜在分布。 本论文以贝叶斯网络的结构学习为出发点,结合MCMC方法,发现该方法在实现结构学习过程出现收敛效率低的问题。于是针对Metropolis-Hastings算法提出一种新的建议概率,改变结构空间的搜索方式:将搜索空间分为三个部分,对加边、删边、逆转边方向形成的三个结构空间分别搜索,使相应的MCMC算法改善贝叶斯网络结构学习陷入局部极值的情况,得到稳定可靠的图形结构。 最后利用提出的算法进行两个实验,一个是在不同初始值下学到不同网络结构,将结果与真实模型相比较,看学习出来的结构是否具有共性。第二个实验是对携程网房型产品的用户行为数据集的应用,即一个有监督的不平衡分类问题,将学习结果与常用算法随机森林、Logistic回归方法学习结果相比较。