论文部分内容阅读
近年来,多源时空序列数据,作为空间大数据的典型代表,蕴含着丰富的数据本征信息,被广泛应用到传染病、气候、环境监测等领域。同时,相关性分析,因具有快捷、高效地发现事物内在关联性的优势而受到广泛的关注,并被有效的应用于产品推荐、商业分析、公共管理、医疗诊断等领域。因此,探讨多源时空序列相关信息的挖掘方法,在空间大数据研究中具有极其重要的意义。 随着空间数据获取方式的多样化发展,空间数据感知设备精度与数据存储能力的提高,以及空间数据固有属性如时空分辨率、光谱分辨率的提高,多源时空序列数据呈现出新的特征,海量、多源、异构的外部特征与高维度、多尺度、非平稳的内部特征,使得现有时空序列相关性分析方法呈现出局限性。一方面,传统多源时空序列分析基于信号平稳的假设,且仅针对小样本数据,并不适用海量、非平稳数据。现有人工智能的方法被用于分析非平稳时空序列,但一般分析过程较为复杂且计算量较大。同时,基于变换域的分析方法一般基于信号分段平稳的假设,局部表征能力较差。另一方面,随着多源时空序列数据的不断增加,时空序列数据的时空自相关性、非线性、高维性等特征,进一步增加了对多源时空序列相关性分析的难度。 因而,针对多源时空序列数据呈现出的内部特征与外部特征,结合各相关性分析方法特点,本博士学位论文的主要研究工作如下: (1)时空数据稀疏空间纹理特征因子保持性研究;提出了稀疏空间下描述纹理特征的统计描述因子、方向描述因子、周期描述因子与低频信息统计因子,并对比分析了不同空间下的纹理特征表现形式,验证了稀疏空间中时空数据纹理特征的保持性,为稀疏空间下多源时空序列相关性分析研究提供前提保障; (2)基于增量字典学习的联合稀疏表征模型;针对多源时空序列海量数据的外部特征,由于传统的字典学习算法不适用于海量数据稀疏表征,同时为了保持稀疏表征后空间一致性,提出了适用于大规模数据的基于增量字典学习的联合稀疏表征方法,并为多源时空序列数据稀疏空间下相关性分析奠定基础; (3)基于希尔伯特-黄变换的稀疏表征模型;针对多源时空序列数据的非平稳特性,本文提出了基于希尔伯特-黄变换的多源时空序列数据表征方法,探讨了希尔伯特-黄变换存在的问题,并提出了基于自相关系数的端点延拓方法与相对经验模态分解算法,给出了非平稳多源时空序列数据表征方法; (4)基于稀疏表征的多源时空序列相关性分析;提出了稀疏空间中时间自相关、空间自相关与时空自相关的计算方法,同时给出了基于希尔伯特-黄变换的绝对熵相关性分析方法,挖掘多源时空序列的时空相关性; 基于上述方法,以京津冀地区的各地理要素的时空序列为例,分析各要素间的相关性,验证文中算法的正确性与可靠性。