论文部分内容阅读
时间序列是数据挖掘中一种重要的数据类型,在现实世界许多领域中广泛存在,如股票价格,商品销售数据,气象数据等。且随着时间推移,这类数据的存储规模呈现爆炸式地增长。如何对这些海量时序数据进行有效的知识发现,挖掘其内在的各种变化模式,是一个挑战性的、具有重要理论意义和实用价值的课题。本文在分析时间序列数据特点和实际应用需求的基础上,针对时间序列的数据挖掘中的一些关键问题进行了研究,具体包括特征模式挖掘、相似性模式查找、多维时间相似性查找等方面,主要的工作集中于以下三个方面:针对时间序列的特征模式问题,采用无须生成大量候选模式集的互关联后继树挖掘算法。该方法基于重要点的序列分段化算法和相对斜率的局部符号化方法,既减少了计算复杂度,又避免了噪声的影响。在算法实现上,根据序列特征模式的有序性和重复性,极大地提高了挖掘效率。实验表明,这种方法的挖掘结果是一种图形化的描述,具有明确的实际含义,便于在实际中应用。针对时间序列相似性查找问题,采用海量全文索引技术——互关联后继树索引模型对时间序列进行挖掘。该方法基于重要点分段技术,利用分段动态弯曲距离作为相似性度量,即保证了度量的鲁棒性,又减少了计算复杂度。研究证明文中的方法不仅提高了结果的准确性,也体现了传统方法所没有的优势。不仅保证查找的结果不会出现任何正确结果的丢失和错误结果的引入,而且也显示出比传统方法具有明显的优势。针对多维时间序列相似性查找问题,采用了一种可应用于多维时间序列的快速相似搜索方法。该方法将序列(子序列)的局部变化特性与检索结构(k-d树)结合起来,使得在搜索k-d树的同时实现了序列(子序列)的局部变化匹配,这种方法既能体现序列(子序列)间的整体距离关系,又能体现它们自身的局部变化,从而极大地提高了查询效率和正确率。实验证明了文中算法的有效性和可行性。