论文部分内容阅读
数据检索及数据挖掘在时间序列数据库上的应用越来越广泛,包含大量时间信息和维度相关信息的多维时间序列,日益得到了研究者的关注。因多维时间序列具有大规模、涉及变量多、维度之间关系复杂等特点,增加了对其挖掘和知识发现的难度,如何对多维时间序列进行有效的特征变换就成为当前的研究热点。随着计算机技术在医学领域的应用,庞大医疗数据库中包含了大量有待挖掘和发现知识的多维时间序列。从现实意义讲,面对大量的医学数据信息,探究一种可靠的技术作为初始医学疾病诊断分类和预测的工具是十分必要的。
本研究基于脑区磁共振成像(FMRI)处理后多维时间序列数据进行数据挖掘和知识发现,以精神抑郁症作为一个数据挖掘和分类应用的案例,多个脑区FMRI时间序列将被作为分类模型中每个样本的数据源,通过建立支持向量机分类模型,有效的区分正常人与抑郁症患者,对现实生活中科学诊断和预测该疾病提供定量依据和参考价值。多个脑区FMRI时间序列存在邻域的相关联系,同时每条时间序列又代表不同的脑区,在大脑神经系统下相互之间的关联是不可避免的。考虑到样本多维时间序列的这种特殊性,进行样本集特征提取时,我们需要同时考虑多维时间序列的时间和空间上的特点。本文探索了主成分分析(PCA)和自回归(AR)模型两种时间序列处理方法,前者能够充分考虑多维数据之间的相关性,后者则冲分考虑了邻域相关的特性,实验结果表明,基于AR模型的AIC特征数据能够实现80%以上的正确识别率,可以更有效的表征样本数据的特征,为进一步的分类模型的建立打下良好的基础。支持向量机分类技术目前已成为备受关注的一种分类技术,它以统计学习理论中的VC维和结构风险最小化为基础,对噪声具有良好的鲁棒性,并对任何未知数据具有较好的适应性,尤其对解决小样本问题的分类和预测具有无法比拟的优越性。支持向量机通过运用一个非线性转换函数将输入的数据映射到高维空间,实现高维特征空间中输入数据的线性分类,从而构建最优超平面。非线性支持向量机通过使用核函数代替变换向量点积,大大减少了计算开销,计算从高维特征空间转换到原始空间,有效解决了高维难题。支持向量机决策函数与使用的核函数、支持向量的个数及其权重有关。惩罚参数和相关核函数参数的选择对于分类的性能至关重要。而对于核函数的类型、核参数及惩罚参数的最优选择是SVM研究的难点和热点。
本文通过PCA方法和基于AR模型的AIC度量提取样本时间序列的特征,建立支持向量机分类模型,基于支持向量机分类的基本原理中参数的变化和核函数选择,有效地运用了网格搜索和粒子群(PSO)启发式优化算法,并针对样本特征选取方法和参数优化算法进行了多组对比实验,实验结果表明,基于AR模型的AIC特征数据比PCA方法能够更好的表征原始数据特性,在此基础上进行的PSO搜索最佳参数的SVM分类性能比网格搜索更胜一筹,建立的支持向量机模型能够正确地识别患病组和正常组,取得了82.39%的分类准确率。基于有效的多维时间序列特征提取和支持向量机良好的分类性能,成功地对抑郁症患者和健康对照组实现分类,为通过FMRI时间序列诊断和预测抑郁症提供了科学依据,进一步推动了数据挖掘在医学上的应用研究。最后本文总结了研究中遇到的样本数据量小、样本数据特征有效提取等问题,指出了不足并给出了进一步深入研究的建议。