时间序列数据清洗方法研究

来源 :清华大学 | 被引量 : 2次 | 上传用户:java777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
错误在时间序列中普遍存在,例如GPS轨迹中存在明显的错误等等。这种情况在工业领域中尤为常见,以某风电装备数据为例,其收集的风机传感序列数据存在大量缺失值、异常值、时间标签无法对齐等错误。某地区风场每天约有24%(约800万个)数据点,31%(约5000台)设备,因数据错误而无法存入数据库(入库),造成了严重的数据资产损失。面对这些含有错误的时间序列,除了常见的保留错误数据、全部丢弃错误数据、进行人工检查之外,还可以利用两类在数据库中广泛使用的清洗算法对时间序列数据进行自动清洗,即基于平滑的清洗算法和基于模型的清洗算法。然而考虑到三种普遍的错误情况,即单点大错误,单点小错误,和连续错误。上述两种清洗算法表现不尽如人意。基于平滑的清洗算法会对几乎所有的数据点进行变动,而基于模型的清洗算法则很难对多变的时间序列进行准确的建模。为了提高时间序列数据质量,本文提出了三种清洗方法。主要内容以及理论贡献如下:·针对时间序列中存在的单点大错误,提出了基于速度约束的清洗算法。基于首创性提出的速度约束,本文给出了全局最优的多项式时间算法和局部最优的线性时间算法。利用高效的中位数法则,该局部最优算法还可以支持流式清洗。除此之外,还能够清洗乱序到达的数据并能够自适应地调整窗口大小。·针对时间序列中存在的单点小错误,提出了基于最大似然的清洗算法。该算法不再以数据清洗领域普遍使用的最小修改原则作为清洗目标,而是从概率的角度评判清洗结果的优劣。解决了目前常用算法无法对小错误进行有效清洗的问题。在给出精确算法的基础上,本文还设计了多种近似算法,并分析了这些算法的适用场景。·针对时间序列中存在的连续错误,提出了基于标注信息的清洗算法。这种迭代式最小清洗算法只需要利用少量的人工标注信息(10%左右)。本文还给出了该算法的收敛条件的分析并支持每轮迭代中进行高效的参数估算。增量式计算方法可以将参数估算的时间复杂度从O(n)降低至O(1)。真实业务场景上的实验结果表明,以上三种清洗方法均能高效高质量地清洗时间序列数据。经过清洗后的时间序列数据,能够使得晶片平均去除速率预测错误显著降低。
其他文献
本文通过回顾和梳理我国城市化的四个阶段,即1949-1958年有限干预的城市化启动阶段、1958-1978年过度干预的城市化剧烈波动阶段、1978-1992年适度干预的城市化较快发展阶段以
物料管理系统是钢铁企业信息化建设中不可或缺的重要组成部分。它通过对物料的采购﹑供应﹑存储﹑保管﹑合理使用等各项组织管理,保正了生产过程连续均衡地进行。钢铁企业中材料费用
人工造林是提高太行山林区森林覆盖率、全面推进国土绿化的重要举措。分析了当前太行山林区人工造林现状以及存在的问题,提出了今后进一步做好太行山林区人工造林工作的对策
本文研究接受美学在初中语文小说阅读教学中的应用,希望为初中语文小说阅读教学提出一点建议。论文指出了当前初中语文小说阅读教学存在的问题在于功利主义思想的影响和虚假
<正>子宫肉瘤患者的临床表现不显著,缺乏特异性的肿瘤标记物及辅助检查手段,易与子宫肌瘤相混淆,故误诊率较高。影像学检查是诊断子宫肉瘤的一种重要辅助手段[1,2],其中彩色
本文首先构建了企业内部服务链的基本模型,在此基础上,从企业文化、人力资源、企业流程三个方面详细论述了如何打造企业内部服务链,最后从系统的角度考虑了企业内部服务链如
绘本是一种深受儿童喜爱的书籍,具有儿童故事书的基本特征。在高考改革的语境下,社会掀起了阅读热。在新课程改革理念下,绘本也被逐渐引入到小学语文教学中来了。作为一种有效的语文教学资源,绘本的教育教学价值有很大的潜力,应被广泛挖掘以助力语文教育。但笔者通过观察、访谈、问卷调查、查阅文献资料等发现,小学教育工作者对绘本存在一定的误解和偏见。这导致目前绘本在小学教育中的应用与推广并不理想。这种现象的普遍存在
目的分析子宫肉瘤误诊原因。方法对2006年~2009年住院病理诊断子宫肉瘤患者临床资料进行回顾性分析。结果病史分析不详细,过分依赖于辅助检查,病理报告准确率,术中剖探标本不
为探索水稻基肥碳酸氢铵应用机械和人工深施的效果,我站于2006年早季在岩溪镇上蔡村建立试验示范,对基肥深施在水稻生产中的应用进行了探索和研究。现将试验结果报道如下。
期刊
笔者通过对教学一线探究教学的长时间观察,发现相当多的探究课题是虚拟的非真实性问题,这些探究远离学生生活实际,实效性不佳。要让科学探究贴近学生生活实际,教师需要深刻理