论文部分内容阅读
函数数据是一种新兴的数据类型,其观测单元为定义于一定区间上的函数曲线,金融市场中股票每日的价格曲线、生物化学中肉类的光谱数据、地磁学中某地一段时间内的磁场强度都可以做为函数数据处理。在多元统计分析因维度过高处理难度增加时,函数数据为其提供了一个新的切入点,将相关度较高的多元数据串联成函数数据还能解决多重共线性问题。当模型有多个可供选择的解释变量时,为了保证预测效果的同时构建简洁的模型,需要鉴别具有显著贡献的解释变量,变量选择方法应运而生。相应于多元统计分析,函数数据分析的发展处于起始阶段,变量选择方面的研究结果尚不够丰富,尤其是解释变量是超高维的情形。针对这一迫切需要,本文深入探讨了部分现存于多元统计分析中的变量选择方法在函数数据中的应用,并通过大量的数值实验说明方法的有效性,以实际应用展示方法的适当性。 从函数线性模型出发,基于现在已十分成熟罚函数方法和逐渐完善的特征扫描方法,研究了如何从带有自回归误差的多元函数线性模型中选择重要变量,为了贴近实际,我们的理论结果允许解释变量存在弱的序列相关性,这在金融数据上十分常见,我们的方法能如独立同分布的函数线性模型一样在进行收缩估计的同时渐近选出真正重要的解释变量。 为了完备超高维函数线性模型变量选择的理论工作,研究了特征扫描方法在函数数据中的应用,并证明了即便在函数数据下,特征扫描方法依然能大大缩小重要解释变量的备选范围,是超高维变量选择的有效第一步。用有限基近似表示函数数据,将多元函数线性模型化为近似等价的多元线性模型,再使用群变量选择的方法做后续处理。考虑了两种基,固定标准正交基和基于样本的特征函数基,后者基于主成分估计,其中在固定基表示的方法中,允许解释变量是α-混合的。在控制模型的错误选择率(FP,FN)上,在特征扫描的基础上修改现有结果得到迭代扫描法。在主成分分析的框架下,提供了特征扫描法的理论证明,一般而言,由于不同样本的估计主成分得分不具有独立性,难以构建理论结果,在本文的第四章,通过采用一个广泛意义下的指数不等式巧妙地解决了这个问题。