大规模序列分析框架的研究与实现

来源 :第六届中国计算机学会大数据学术会议 | 被引量 : 0次 | 上传用户:tryst8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由工业设备产生、采集和处理的数据大多是时间序列、空间序列、高维矩阵等非结构化数据.目前单机分析环境如R、Matlab等提供了优质丰富的算法库,但随着数据生成速度和规模的不断升级,上述工具在处理大规模序列和矩阵运算时呈现低效甚至失效的现象.针对可处理数据规模和算法可移植性问题,本文设计了一种大规模时间序列分析框架LTSAF(Large-scale Time Series Analysis Framework).基于分治原理,该框架创新地提出近似解方案,在无法有效获得精确解的情况下采用数据并行的计算方式求取近似解.建立了时空代价优化模型,求解得到序列的最优分段长度,以达到计算结果的有效性与计算开销的均衡.在Spark平台下实现了序列分析原型系统,采用跨语言、跨平台的方式集成了第三方算法库.实验结果表明,该系统在保证分析结果正确性的基础上,序列分析的处理速度和规模呈线性增长.同时,该系统易于集成与扩展,使数据分析人员免于算法重复开发,聚焦于分析任务本身.
其他文献
土水特征曲线(SwCC)描述了非饱和土中体积含水量(或有效饱和度)与压力水头(或基质吸力)之间的关系.SWCC作为非饱和土力学中的基本函数,可用于研究非饱和土的抗剪强度、渗透特性以及变形特性等,在非饱和土力学应用中发挥着重要作用.工程实践中,通常可采用直接试验方法测得SWCC数据.由于直接试验方法条件苛刻且耗时较长,难以获得体积含水量范围内完整的SWCC数据.在有限试验数据条件下,如何更好的选择S
本文有效考虑管理不当引起的堤防溃决风险的影响,识别了堤防工程系统的23个风险因子.为方便风险因子量化,将其划分为12个定量因子和11个定性因子,并分别基于无量纲处理法和专家评分法对其进行量化.在此基础上对每个风险因子进行赋权处理并计算堤防工程系统综合风险评价值.最后,以鄱阳湖区矶山联堤防实例验证了提出方法的有效性,研究成果可为制定堤防风险管理决策提供理论和技术支持.
机器学习在网络入侵检测中的应用已经受到各界广泛关注,应用的算法主要是决策树、随机森林、logit、KNN等机器学习模型,这些算法发布时间较长、应用成熟、发掘潜力有限.Xgboost算法推出时间相对较晚,在网络入侵检测中的研究较少.文章以此为研究对象,基于入侵检测数据集KDD99,使用logit、KNN、决策树、随机森林、Xgboost等机器学习模型分别进行5折交叉验证,计算和比较这些算法的识别效果
High-quality image deconvolution is required for many image processing applications.Our work concentrates on portraying a new image deconvolution method based on Retinex prior knowledge.We build a new
每年秋冬季节,也是中国北方大部分城市的雾霾多发季节,而且随着最近几年城市私家车保有量的提升以及冬季取暖等其它污染源的增加,雾霾呈现出越来越严重的态势,严重影响人们的生活和健康.当前对于雾霾的主要防治措施主要为污染源的治理和生活办公区域的空气净化.该文设计出一种新型的“负离子雾霾收集器”,该设备充分利用电子流动裹着雾霾颗粒除霾,纯物理过程,非常安全,利用电子流动裹着雾霾颗粒除霾,纯物理过程,非常安全
问句实体链接是问答系统的重要步骤之一,传统的方法都是先识别出问句中的命名实体,然后再链接到知识库,这需要大量的数据处理和特征选择工作,而且容易造成错误累积,降低链接效果.针对这种情况,本文提出基于注意力机制的编码器—解码器实体链接模型AMEDEL.该模型使用双向的长短期记忆网络对问句进行编码,经过注意力机制解码,生成对应的实体指称和消歧信息输出,最后再链接到知识库实体.在有关汽车领域车系产品问句和
Sleep staging has attracted significant attention as a critical step in auxiliary diagnosis of sleep disease.To avoid subjectivity in the process of doctors manual sleep staging,and to realize scienti
Many software projects use bug tracking systems to collect and allocate the bug reports,but the priority assignment tasks become difficult to be completed because of the increasing bug reports.In orde
Network embedding is a very important task to represent the high-dimensional network in a low-dimensional vector space,which aims to capture and preserve the network structure.Most existing network em
在监督学习中,标签噪声对模型建立有较大的影响.目前对于标签噪声的处理方法主要有基于模型预测的过滤方法和鲁棒性建模方法,然而这些方法要么过滤效果不好,要么过滤效率不高.针对该问题,本文提出一种基于数据分布的标签噪声过滤方法.首先对于数据集中的每一个样本,根据其近邻内样本的分布,将其及邻域样本形成的区域划分为高密度区域和低密度区域,然后针对不同的区域采用不同的噪声过滤规则进行过滤.与已有方法相比,本文