论文部分内容阅读
近来,时间序列相似性挖掘越来越受到诸多学者的关注和研究。它不仅是时间序列数据挖掘的重要工具,而且也是其他知识发现应用,诸如聚类、分类和关联规则发现等的基础。相似性挖掘在水文上可用于雨洪过程预测、环境演变分析、水文过程规律发现等。水文数据数量大、类型复杂。在实际的水文时间序列挖掘中,往往需要将水位、流量、降雨量和蒸发量等多个水文要素综合考虑,而且需要同时考虑多个测站的水文信息。因此水文相似挖掘是对多元时间序列的相似性挖掘,而确立合适的多元时间序列相似性度量方法是相似挖掘的关键。
论文围绕多元时间序列相似性挖掘这个主题,主要工作包括:
(1)采用基于特征点的时间序列表示方法,以斜率距离作为相似度量,进行单序列的相似挖掘。
(2)提出基于Borda计数法的多元时间序列相似性度量方法。首先进行单序列相似性查询,然后通过Borda计数法综合单序列匹配的结果,Borda分数最高的那个序列即为最相似的序列。实验结果表明,该方法能够全面考虑每元序列的相似性,而且容易理解,结果容易展现给用户,显得更直观。特别地,当.PCA对多元序列降维后仍然提取多于两个主成分时,更体现了该方法的优越性。
(3)基于上述技术,确定水文时间序列相似挖掘主题,设计合适的水文相似挖掘模型,以太湖水位、宜丰洪水这两个数据集作为实验数据,验证了本文方法和模型的有效性和正确性。
(4)鉴于DTW在序列相似性匹配过程中特征点(波峰和波谷)一一匹配的特点,对上下游测站的水位过程线进行相似匹配,通过统计DTW匹配的时间偏差,估算上下游的水位影响关系。实验结果符合水文专家的经验值。