论文部分内容阅读
随着人工智能、大数据的发展,从观察到的数据中发现因果关系是许多研究领域的一个重要问题。因果关系推断是解释分析的一个强大的建模工具,使当前的机器学习具有可解释性。在医疗、通信、互联网、统计和经济等许多领域都有重要的应用。目前,因果关系推断已从二维变量的研究基础上开始研究对高维数据中因果网络结构的学习。但是利用传统的因果关系推断算法在高维数据中学习因果网络结构和提高学习准确率是目前研究的难点。在复杂的高维数据中,常存在大量的缺失、异常数据,如果处理不好,将会直接影响因果关系推断的准确率。基于以上的问题,本文按照两部分研究思路逐步改进高维数据下的因果推断算法。这两个部分研究思路及创新点分别是:1、基于高维数据异常值问题,本文在引入耦合相关系数(copula dependence coefficient,CDC)的基础上,提出了一种适用于高维数据的两步骤因果关系推断算法。首先该算法引入对异常值数据具有鲁棒性的CDC,对变量间的关联度进行检测,提高目标点的父子节点集的准确,再利用条件独立测试(CI)对父子集点集进一步提炼,删除无关节点;然后使用非线性最小二乘独立回归算法,为图中的目标点与其父子节点之间标注因果方向;最后迭代所有的节点完成完整的因果网络结构。2、部分缺失的高维数据直接执行现有的因果关系推断算法可能会导致不正确的推断。近年来,深度学习针对缺失数据的填充技术也日益成熟可靠。基于此本文结合了深度学习中GAN和GAE两个框架,分别用于执行迭代缺失数据填充和因果关系骨架学习。实验结果表明,算法提高了高维数据下因果网络结构学习的准确率。同时在大样本数据集中,算法的时间复杂度优于传统算法,对异常值具有鲁棒性。通过对合成数据的仿真,本文也证明了在不同缺失数据机制下的因果关系推断性能优于现有方法。