论文部分内容阅读
在时间序列分析中,时间序列的聚类是一个很重要的研究方向,它能够为不同领域的实际问题提供很多重要的信息。通过大量的文献调查,发现大多数主流的时间序列聚类方法基本上是针对线性时间序列的,聚类的前提是假设平稳时间序列能够由线性模型来拟合,而事实上真实的世界是非线性的,所以将传统的时间序列聚类方法应用于非线性时间序列数据上显然是不合适的。由于现实世界中存在大量各种类型的非线性结构的时间序列,很难用同一族(类)时间序列模型来描述所有的非线性时间序列相关结构,这就增加了定义非线性时间序列之间相似性距离的难度。故本文不再沿用基于模型来进行聚类的研究思路,而是借用非常灵活的非参数方法。 本文的研究目标是使用非参数方法来研究非线性时间序列的聚类问题,通过理解序列是如何被生成的,并估计出生成这些序列的随机过程之间的相似性来定义其距离度量。本文的主要研究工作如下: 第一,对比研究了现有的非参数的时间序列聚类方法。 这些方法的共同点是它们都是根据时间序列的相关结构构造出来的,对比了各方法的特点,分析了影响聚类效果的一些因素,包括序列长度、权重函数、阶数选择、聚类算法等。 第二,提出一类以时间序列的平滑后自回归函数的差异作为距离度量的聚类方法。 在时间序列服从非参数自回归模型的假设的基础上,使用现有的非参数估计方法拟合出每个序列的自回归函数,由于度量自回归函数之间差异的方法的不同,提出两种距离度量方式——向量法和基系数法。 基于向量法中的距离度量,提出一种假设检验来决定两个序列是否来自同一个随机过程,它使用非参数自回归估计函数之间的Cramer-von-Mises类型的函数距离作为该检验统计量。为了判断是否拒绝原假设,大样本情况下可以使用渐近近似的方法,由于存在渐近分布收敛速度极慢的问题,对小样本情况使用一种自助法重抽样的方法。通过一系列的模拟实验验证了该假设检验的强度,以及这类距离度量的聚类能力。 第三,提出一类基于时间序列的核密度估计的聚类方法。 首先介绍了一种基于一维核密度估计的时间序列聚类方法,该方法的聚类对象是预测值,使用一维核密度估计来近似未来某一时间点的预测值的分布,然后聚类该密度函数。将该方法应用于中国31个省市的社会消费品零售总额的时间序列数据进行2010年上半年累计消费品零售总额的聚类分析,预计2010年中国各省市的消费品零售总额会继续走高,聚类结果将中国31个省市分成三个大类,这对各个省市政府互相借鉴经验和政策具有指导意义。 在高维核密度估计情况下,可估计时间序列的连续观测构成的二维或高维样本的核密度函数,以他们的密度函数曲面的形状差异度量两个非线性时间序列的接近程度,它能够识别时间序列形状和动态结构的相似性;与理论结果一致,模拟实验结果也验证了该距离度量的有效性。 第四,提出KS1D距离度量和KS2D距离度量。 将时间序列边际累计分布函数的KS一维检验统计量定义成KS1D距离度量,该度量方式简单并且鲁棒性强,对极端值不敏感。为了将时间序列的非线性相关结构引入到距离度量之中,使用原始时间序列和它的滞后序列构成二维数据,将它们的KS二维统计量作为一种时间序列之间的距离度量,即KS2D距离。模拟实验的结果验证了该距离度量的有效性,并利用KS2D距离对一些国家的工业生产指数进行聚类,得到了可解释的合理的聚类结果。 这一类距离度量简单、直观,不需要平滑技术,可避免了依赖于参数选择的平滑技术附带的一些问题。