近数据计算下键值存储中Compaction并行优化方法

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:susame1976
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大规模非结构化数据的爆炸式增长给传统关系型数据库带来了极大的挑战.基于日志结构合并树(log-structured merge tree,LSM-tree)的键值存储系统已被广泛应用,并起到重要的作用,原因在于基于LSM-tree的键值存储能够将随机写转化为顺序写,从而提升性能.然而,LSM-tree键值存储也存在一些性能问题.一方面,键值存储利用compaction操作更新数据,保持系统平衡,但造成严重的写放大问题.另一方面,以传统计算为中心的架构下,compaction操作带来大量的数据传输,影响了系统性能.以数据为中心的近数据计算模型(near-data processing,NDP)为基础,利用该模型下主机端与近数据计算使能设备端的并行资源,提出基于系统并行与流水线并行的compaction优化方法(collaborative parallel compaction optimization for LSM-tree key-value stores,CoPro).当处理 compaction 操作时,CoPro主机端与NDP设备端协同执行compaction卸载任务.此外,进一步提出基于决策组件的CoPro+,根据系统资源变化以及负载键值对中值大小的变化来动态调整并行度,使NDP架构中计算资源的使用更加高效.在搭建的硬件平台上验证了CoPro的有效性.
其他文献
针对当前软件人才培养中综合能力、人文素养等缺失的现状,提出基于工程教育专业认证标准,构建一个以学生为中心、以毕业要求为目标并融入思政教育的人才培养模式,探讨软件专业毕业要求与思政元素、课程教学和评价考核的映射及实施,介绍思政案例库的建设,并以面向对象的分析与设计课程为例阐述具体教学实施,通过效果说明该教学模式的有效性.
列举智控类课程中所蕴含的思政元素,介绍在智能控制与计算智能相关的专业课程教学中开展课程思政的具体方法和案例,深入分析其中存在的一些问题并给出应对措施.
随着新能源发电规模不断扩大,火力发电对电网稳定运行发挥的作用日益突出,因此提高火电机组安全运行水平,对电网多类型机组协调及稳定运行具有重要意义.以历史数据中相似特征数据段为基础展开的生产过程异常根源分析等技术受到广泛重视,其中提高相似特征数据段查找效率及准确性一直为研究重点.论文研究了相似趋势特征历史数据段查找问题,通过采用历史数据符号化表示转换技术,实现了数据段趋势信息和数幅值变化信息的融合,提高了相似特征数据段查找结果的效率和准确性.最后,论文通过数值仿真验证了所提方法的有效性.
电子病历实体识别是智慧医疗服务中一项重要的基础任务,当前医院诊疗过程中采用人工分析病历文本的方法,容易产生关键信息遗漏且效率低下.为此,提出一种结合BERT与条件随机场的实体识别模型,使用基于双向训练Transformer的BERT中文预训练模型,在手工标注的符合BIOES标准的语料库上微调模型参数,通过BERT模型学习字符序列的状态特征,并将得到的序列状态分数输入到条件随机场层,条件随机场层对序列状态转移做出约束优化.BERT模型具有巨大的参数量、强大的特征提取能力和实体的多维语义表征等优势,可有效提升
以数据库发展史为教学单元,提出以“明理、增信、崇德、力行”为思政教育主线的课程思政案例设计思路和案例框架,阐述信息技术支撑的多元交互教学方法,介绍具体教学实施过程,通过2021秋季学期数据库技术课堂学习测评数据及学习感受数据的汇总分析,说明课程思政案例教学效果.
为了在密码学课堂教学的同时融入课程思政教育,通过分析现有教学现状和存在问题,提出基于哲学思想、技术路线及加解密处理环境的教学导图,结合学科内容特点,分析和总结密码学教学内容中所蕴含的哲学和人文思想,探讨如何在教学中引入传统文化经典中的词句,力求课程和思政的有机统一.
为了更有效地评估学生的团队协作能力,以PBL学习模式为基础,提出构建一个集在线学习和能力评估为一体的平台,结合在线教学与数据挖掘手段,阐述该平台的特点和优势,以复旦大学某班级的教学实践为例,说明该平台的可行性和应用效果.
新兴的非易失性内存(non-volatile memory,NVM)具有字节寻址、持久性、大容量和低功耗等优点,然而,在NVM上进行并发编程往往比较困难,用户既要保证数据的崩溃一致性又要保证并发的正确性.为了降低用户开发难度,研究人员提出持久性事务内存方案,但是现有持久性事务内存普遍存在扩展性较差问题.测试发现限制扩展性的关键因素在于全局逻辑时钟和冗余NVM写操作.针对这2个方面,提出了线程逻辑时钟方法,通过允许每个线程拥有一个独立时钟,消除全局逻辑时钟中心化问题;提出了缓存行感知的双版本方法,为数据维护
卷积神经网络在诸多领域已经取得超出人类的成绩.但是,随着模型存储开销和计算复杂性的不断增加,限制处理单元和内存单元之间数据交换的“内存墙”问题阻碍了其在诸如边缘计算和物联网等资源受限环境中的部署.基于阻变存储的硬件加速器由于具有高集成度和低功耗等优势,被广泛应用于加速矩阵-向量乘运算,但是其不适合进行32b浮点数计算,因此需要量化来降低数据精度.手工为每一层确定量化位宽非常耗时,近期的研究针对现场可编程门阵列(field programmable gate array,FPGA)平台使用基于深度确定性策略
概率生成模型是知识表示的重要方法,在该模型上计算似然函数的概率推理问题一般是难解的.变分推理是重要的确定性近似推理方法,具有较快的收敛速度、坚实的理论基础.尤其随着大数据时代的到来,概率生成模型变分推理方法受到工业界和学术界的极大关注.综述了多种概率生成模型变分推理框架及最新进展,具体包括:首先综述了概率生成模型变分推理一般框架及基于变分推理的生成模型参数学习过程;然后对于条件共轭指数族分布,给出了具有解析优化式的变分推理框架及该框架下可扩展的随机化变分推理;进一步,对于一般概率分布,给出了基于随机梯度的