论文部分内容阅读
基于大数据时代相关分析日益重要的现实,本文指出伴随大数据而来的数据规模、标准、形式等方面的变化,对传统相关分析方法产生巨大冲击,使得Pearson相关系数、Spearman秩相关系数和Kendall秩相关系数很多情况下面临失效。结合大数据特征,从适用数据类型和非线性相关探测两个方面对传统相关分析进行改进:一是拓展相关分析的适用数据类型,给出针对定类数据的相关分析方法,包括多种定性相关系数和新兴的关联规则挖掘;二是提出探测非线性相关的相关指数法和基于信息论基础的最大信息系数(MIC)方法。最后,给出大数据相关分析应注意的几个问题及未来展望。