非参数的时间序列聚类方法研究

来源 :中国人民大学 | 被引量 : 0次 | 上传用户：leaf678

【摘要】

：

在时间序列分析中，时间序列的聚类是一个很重要的研究方向，它能够为不同领域的实际问题提供很多重要的信息。通过大量的文献调查，发现大多数主流的时间序列聚类方法基本上是针对

【作者】

：

张贝贝

【机构】

：

中国人民大学

【出处】

：

中国人民大学

【发表日期】

：

2010年期

【关键词】

：

时间序列聚类分析自回归函数距离度量鲁棒性

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在时间序列分析中，时间序列的聚类是一个很重要的研究方向，它能够为不同领域的实际问题提供很多重要的信息。通过大量的文献调查，发现大多数主流的时间序列聚类方法基本上是针对线性时间序列的，聚类的前提是假设平稳时间序列能够由线性模型来拟合，而事实上真实的世界是非线性的，所以将传统的时间序列聚类方法应用于非线性时间序列数据上显然是不合适的。由于现实世界中存在大量各种类型的非线性结构的时间序列，很难用同一族（类）时间序列模型来描述所有的非线性时间序列相关结构，这就增加了定义非线性时间序列之间相似性距离的难度。故本文不再沿用基于模型来进行聚类的研究思路，而是借用非常灵活的非参数方法。　　本文的研究目标是使用非参数方法来研究非线性时间序列的聚类问题，通过理解序列是如何被生成的，并估计出生成这些序列的随机过程之间的相似性来定义其距离度量。本文的主要研究工作如下:　　第一，对比研究了现有的非参数的时间序列聚类方法。　　这些方法的共同点是它们都是根据时间序列的相关结构构造出来的，对比了各方法的特点，分析了影响聚类效果的一些因素，包括序列长度、权重函数、阶数选择、聚类算法等。　　第二，提出一类以时间序列的平滑后自回归函数的差异作为距离度量的聚类方法。　　在时间序列服从非参数自回归模型的假设的基础上，使用现有的非参数估计方法拟合出每个序列的自回归函数，由于度量自回归函数之间差异的方法的不同，提出两种距离度量方式——向量法和基系数法。　　基于向量法中的距离度量，提出一种假设检验来决定两个序列是否来自同一个随机过程，它使用非参数自回归估计函数之间的Cramer-von-Mises类型的函数距离作为该检验统计量。为了判断是否拒绝原假设，大样本情况下可以使用渐近近似的方法，由于存在渐近分布收敛速度极慢的问题，对小样本情况使用一种自助法重抽样的方法。通过一系列的模拟实验验证了该假设检验的强度，以及这类距离度量的聚类能力。　　第三，提出一类基于时间序列的核密度估计的聚类方法。　　首先介绍了一种基于一维核密度估计的时间序列聚类方法，该方法的聚类对象是预测值，使用一维核密度估计来近似未来某一时间点的预测值的分布，然后聚类该密度函数。将该方法应用于中国31个省市的社会消费品零售总额的时间序列数据进行2010年上半年累计消费品零售总额的聚类分析，预计2010年中国各省市的消费品零售总额会继续走高，聚类结果将中国31个省市分成三个大类，这对各个省市政府互相借鉴经验和政策具有指导意义。　　在高维核密度估计情况下，可估计时间序列的连续观测构成的二维或高维样本的核密度函数，以他们的密度函数曲面的形状差异度量两个非线性时间序列的接近程度，它能够识别时间序列形状和动态结构的相似性;与理论结果一致，模拟实验结果也验证了该距离度量的有效性。　　第四，提出KS1D距离度量和KS2D距离度量。　　将时间序列边际累计分布函数的KS一维检验统计量定义成KS1D距离度量，该度量方式简单并且鲁棒性强，对极端值不敏感。为了将时间序列的非线性相关结构引入到距离度量之中，使用原始时间序列和它的滞后序列构成二维数据，将它们的KS二维统计量作为一种时间序列之间的距离度量，即KS2D距离。模拟实验的结果验证了该距离度量的有效性，并利用KS2D距离对一些国家的工业生产指数进行聚类，得到了可解释的合理的聚类结果。　　这一类距离度量简单、直观，不需要平滑技术，可避免了依赖于参数选择的平滑技术附带的一些问题。

其他文献

基于C8051F单片机抽油机数据采集模块的研究与实现

研究了一种基于C8051F单片机抽油机数据采集模块的设计与实现.论述了系统结构、工作原理,着重阐述了硬件电路、软件流程与实现方法.该数据采集模块运用多维参数检测,结合高性

期刊

数据采集模数转换C8051F单片机无线通讯抽油机

带上下限的网络最大流的算法

期刊

要素收入分配格局对我国国际收支失衡的影响

近年来，我国国际收支双顺差日趋加剧，主要体现在货物贸易项目和外商直接投资项目的贷方金额数目巨大并且增长速度迅速。与此同时，在国内二元经济结构转型的背景下，资本与劳动要素

学位

国际收支失衡要素收入分配格局对外贸易外商直接投资

松花湖生态健康评估

该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥

期刊

生态健康完整性指标体系松花湖

一项国家农业科技成果转化资金项目在山东绿都生物科技有限公司启动

期刊

国家农业科技成果转化资金项目生物科技山东中国兽医药品监察所传染性支气管炎耐热保护剂鸡新城疫科研服务

四川25亿推进扶贫开发

期刊

基于CAN总线网络控制系统中的时延分析及对策

网络时延严重影响网络控制系统的实时性和稳定性.分析CAN总线网络控制系统时延的构成,针对给定的网络控制系统模型,给出系统稳定性与网络时延之间的数学关系式,并讨论了网络

期刊

网络控制系统网络时延时间触发事件触发负载率稳定性

基于ZigBee无线传感器网络的通信标识管理终端通信研究

期刊

当代美国金融监管制度研究

金融业在现代经济中的地位非常重要，其稳定与否直接关系到一国经济是否能够实现持久发展。为了规避和应对金融危机，各国政府当局都基于本国国情制定了不同类型的金融监管制度，并

学位

金融监管制度改革效果评估竞争力美国

私募股权投资中对赌协议的适用性和效率研究

全文从效率角度出发，综合运用委托-代理理论、金融契约理论以及贝叶斯概率方法，详细分析私募股权投资中对赌协议的经济效率问题及其适用性。　　首先，文章重点研究了基于最终状

学位

私募股权投资对赌协议帕累托效率业绩信号适用性委托-代理理论

非参数的时间序列聚类方法研究

其他学术论文