论文部分内容阅读
信息技术的高速发展引爆了数据的雪崩式增长。自然界、人类社会以及交叉学科模型中的诸多复杂系统数据正以前所有未的规模和精度被记录和保存着,也吸引了一大批物理学家兴趣盎然乐此不疲地分析着。近年来,复杂系统研究视角和研究手段得到了极大的拓宽和发展。本文聚焦于复杂系统中的关联和网络结构这一内容,试图构建一个复杂系统数据先期研究的整体框架,首先介绍作者在博士期间所总结的复杂系统数据分析理论,然后再针对几个体系做分析。 在理论介绍部分,涉及数据结构、伊辛模型、复杂网络、关联分析这四个部分。本文首先对复杂系统的数据结构进行了分析。状态矢量R和记录数强度n构成了复杂系统的构型空间(n,R)。复杂系统即是其构型空间中的一张超曲面,由状态记录强度n(R)所刻画。进一步地,将R划分为对象、属性、特征、冗余四个子空间并定义出系统的函数型结构。关联和网络的分析便由此结构出发。其次介绍伊辛模型的基本理论以及其与复杂系统数据分析的关系。接着介绍复杂网络的构建和分析。从n(R)出发构建网络具有很强的灵活性。本文指出,某些定义下的关联涨落矩阵和复杂网络的带权模块度矩阵具有等价性。最后介绍关联性分析。关联传递矩阵的概念、去涨落模关联模式分析和有限抽样样本涨落模式分析的方法将会被介绍。 在复杂系统数据分析中,首先对伊辛模型进行分析。对二维周期边界正方格子伊辛系统中自旋主涨落模式的临界现象和有限尺度标度律进行分析,讨论了本征值分层特性与晶格对称性的关系,得到本征值的临界指数与磁化率的临界指数一致的结论,揭示了本征值的比值和系统二阶矩关联长度的关系,并测量了这些量的普适函数。进一步地对伊辛系统做有限抽样涨落模式分析和关联传递分析。前者试图直接测量关联长度的大小,后者则试图还原格点的近邻分布。最后分析了系统能量涨落关联的主涨落模式。 接下来介绍股票系统的数据分析。分别以股票博弈空间、时间以及股票本身作为对象空间进行关联和网络分析。博弈空间由价格变动率和资金流量两个维度构成。博弈空间的关联涨落模式分解可以将系统的交易博弈行为分解为不同的模式,如市场模式、蓝筹股模式、多空模式等。时间的关联分析可以观测到涨落模式的时间尺度特征,进一步区分市场的状态和事件。股票的网络分析则提出了一种股票分类方式,可以自动地把股票分为市场股、蓝筹股、绩差股等。 学术文献数据分析侧重于网络分析。该部分分析以笔者博士期间收录和下载的文献为基础数据,着重分析文献、作者、关键词三者的有向网络和无向网络,给出三者的排序、聚类和模式。最后以作者和关键词为混合节点重复了分析。 本文最后对其他复杂系统做了简要分析。如对淘宝商品关键词系统进行分析,从时间的角度观察到与直觉吻合的以一周为周期的现象;从关键词的角度观察到季节轮换的特征。如对地理哈希代码系统的破译,以人群在空间应连续分布这一假设为核心图像,计算同数位上不同数码之间的关联破解数码组织结构。如美国主要上市公司股权结构分析,以美国世界500强中的上市公司为数据集构建复杂网络模型,对股权分割状态进行了可视化。