DMFUCP:大规模轨迹数据通用伴随模式分布式挖掘框架

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:jacky1313
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
广泛应用的移动定位设备方便了用户位置数据的获取,轨迹数据量高速增长.通用伴随模式挖掘聚焦时空维度上的用户高相似度行为路径发现问题,基于大规模轨迹数据设计高效准确地伴随模式挖掘方法对发现用户偏好、构建新商业模式等具有重要意义,同时也极具挑战.一方面,海量且不断增长的轨迹数据要求伴随模式挖掘应具有良好的可扩展性,集中性挖掘策略并不适用.另一方面,现有的分布式挖掘框架在为高效模式挖掘提供高质量数据输入、轨迹数据中大量松散连接的有效处理等方面考虑不足,使得通用伴随模式发现存在改进空间.提出了一个分布式的2阶段通用伴随模式挖掘框架——DMFUCP,其通过嵌入数据预处理优化、松散连接分析优化等,让伴随模式挖掘方法呈现了更好的性能.其中,该框架为数据预处理阶段设了融合运动方向的密度聚类算法DBSCANCD和聚类平衡算法TCB,确保后续挖掘任务获得提供少噪音、高质量的轨迹数据输入;在模式挖掘阶段,该框架设计了G剪枝重划分算法GSPR和分段枚举算法SAE,GSPR使用参数G对长轨迹进行分割,并将分割后的所有分段重划分以改善松散连接的处理效果,SAE负责引入多线程和前向闭包保证挖掘算法的性能.实验证明,相比现有的通用伴随模式挖掘框架,DMFUCP具有更好的通用伴随模式发现能力的同时,将挖掘每组通用伴随模式的时间消耗降低了20%~40%.
其他文献
随着新能源发电规模不断扩大,火力发电对电网稳定运行发挥的作用日益突出,因此提高火电机组安全运行水平,对电网多类型机组协调及稳定运行具有重要意义.以历史数据中相似特征数据段为基础展开的生产过程异常根源分析等技术受到广泛重视,其中提高相似特征数据段查找效率及准确性一直为研究重点.论文研究了相似趋势特征历史数据段查找问题,通过采用历史数据符号化表示转换技术,实现了数据段趋势信息和数幅值变化信息的融合,提高了相似特征数据段查找结果的效率和准确性.最后,论文通过数值仿真验证了所提方法的有效性.
电子病历实体识别是智慧医疗服务中一项重要的基础任务,当前医院诊疗过程中采用人工分析病历文本的方法,容易产生关键信息遗漏且效率低下.为此,提出一种结合BERT与条件随机场的实体识别模型,使用基于双向训练Transformer的BERT中文预训练模型,在手工标注的符合BIOES标准的语料库上微调模型参数,通过BERT模型学习字符序列的状态特征,并将得到的序列状态分数输入到条件随机场层,条件随机场层对序列状态转移做出约束优化.BERT模型具有巨大的参数量、强大的特征提取能力和实体的多维语义表征等优势,可有效提升
以数据库发展史为教学单元,提出以“明理、增信、崇德、力行”为思政教育主线的课程思政案例设计思路和案例框架,阐述信息技术支撑的多元交互教学方法,介绍具体教学实施过程,通过2021秋季学期数据库技术课堂学习测评数据及学习感受数据的汇总分析,说明课程思政案例教学效果.
为了在密码学课堂教学的同时融入课程思政教育,通过分析现有教学现状和存在问题,提出基于哲学思想、技术路线及加解密处理环境的教学导图,结合学科内容特点,分析和总结密码学教学内容中所蕴含的哲学和人文思想,探讨如何在教学中引入传统文化经典中的词句,力求课程和思政的有机统一.
为了更有效地评估学生的团队协作能力,以PBL学习模式为基础,提出构建一个集在线学习和能力评估为一体的平台,结合在线教学与数据挖掘手段,阐述该平台的特点和优势,以复旦大学某班级的教学实践为例,说明该平台的可行性和应用效果.
新兴的非易失性内存(non-volatile memory,NVM)具有字节寻址、持久性、大容量和低功耗等优点,然而,在NVM上进行并发编程往往比较困难,用户既要保证数据的崩溃一致性又要保证并发的正确性.为了降低用户开发难度,研究人员提出持久性事务内存方案,但是现有持久性事务内存普遍存在扩展性较差问题.测试发现限制扩展性的关键因素在于全局逻辑时钟和冗余NVM写操作.针对这2个方面,提出了线程逻辑时钟方法,通过允许每个线程拥有一个独立时钟,消除全局逻辑时钟中心化问题;提出了缓存行感知的双版本方法,为数据维护
卷积神经网络在诸多领域已经取得超出人类的成绩.但是,随着模型存储开销和计算复杂性的不断增加,限制处理单元和内存单元之间数据交换的“内存墙”问题阻碍了其在诸如边缘计算和物联网等资源受限环境中的部署.基于阻变存储的硬件加速器由于具有高集成度和低功耗等优势,被广泛应用于加速矩阵-向量乘运算,但是其不适合进行32b浮点数计算,因此需要量化来降低数据精度.手工为每一层确定量化位宽非常耗时,近期的研究针对现场可编程门阵列(field programmable gate array,FPGA)平台使用基于深度确定性策略
概率生成模型是知识表示的重要方法,在该模型上计算似然函数的概率推理问题一般是难解的.变分推理是重要的确定性近似推理方法,具有较快的收敛速度、坚实的理论基础.尤其随着大数据时代的到来,概率生成模型变分推理方法受到工业界和学术界的极大关注.综述了多种概率生成模型变分推理框架及最新进展,具体包括:首先综述了概率生成模型变分推理一般框架及基于变分推理的生成模型参数学习过程;然后对于条件共轭指数族分布,给出了具有解析优化式的变分推理框架及该框架下可扩展的随机化变分推理;进一步,对于一般概率分布,给出了基于随机梯度的
大规模非结构化数据的爆炸式增长给传统关系型数据库带来了极大的挑战.基于日志结构合并树(log-structured merge tree,LSM-tree)的键值存储系统已被广泛应用,并起到重要的作用,原因在于基于LSM-tree的键值存储能够将随机写转化为顺序写,从而提升性能.然而,LSM-tree键值存储也存在一些性能问题.一方面,键值存储利用compaction操作更新数据,保持系统平衡,但造成严重的写放大问题.另一方面,以传统计算为中心的架构下,compaction操作带来大量的数据传输,影响了系
数据流分类是数据挖掘中最重要的任务之一,而数据流的概念漂移特性给分类算法带来了巨大的挑战.基于极限学习机算法进行优化是解决数据流分类问题的一个热门方向,但目前大多数算法都采用提前指定模型参数的方式进行学习,这种做法使得分类模型只能在特定的数据集上才能发挥较好的性能.针对这一问题,提出了一种简单有效的处理概念漂移的算法——自适应在线顺序极限学习机分类算法.算法通过引入自适应模型复杂度机制,从而具有更好的分类性能.然后通过引入自适应遗忘因子与概念漂移检测机制,能够根据动态变化的数据流进行自适应学习,从而可以更