大数据领域基本字符操作算法加速研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:sun_merry
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在传统的体系结构下,字符类型是一种最基本的类型,而字符串则被拆分成一个个的字符操作,多次操作以及由于不定长而产生的控制跳转都使得其需要大量的时间消耗。随着大数据时代的到来,软件应用的重心由数值计算不断地向业务处理转移,而大部分业务应用的最基本变量都是由字符和字符串组成,海量字符操作所带来的繁重负担已不可忽视。  当前,通用加速器和专用加速器在针对字符操作的问题上有很大的不适应性,因此,为了缓解字符操作为大数据应用领域带来的负担,本文从硬件结构设计角度进行了深入的研究。通过对大数据领域中最具有代表性的Terasort、Grep/KMP和WordCount三个应用深入分析,针对性的设计并实现了字符操作加速结构。  本文的主要研究内容和贡献包括:  典型大数据算法特征分析与提取。选取了大数据应用中的基本字符操作算法进行分析和热点评估,归纳提取出定长字符串比较、定长字符串拷贝、非定长字符串比较、非定长字符串拷贝和字符连续比较五个核心操作;  字符操作加速方法及结构设计:  提出了一种基于cache line的面向字符操作的加速方法——TCC(Text CacheComputing),该方法适应于具有地址连续性的基本操作;  基于TCC方法设计实现了加速字符串操作部件——TCSU(Text-Cache-basedString Unit)。通过TCSU部件加速,大幅度降低了程序执行指令数和访存次数,并提高了算法执行速度。基于Terasort、WordCount和Grep传统算法的实验评估结果显示,加速比分别达到2.98、1.7和2.59倍;  基于TCC方法设计实现了加速连续字符连续操作部件——TCCU(Text-Cache-based Char Unit)。通过TCCU部件加速,KMP程序指令执行数降低了20倍,整体运行速度提高了12.8倍。
其他文献
网络测试是评估网络性能、定位网络故障和优化网络系统的有效手段。流量回放在网络测试中发挥着重要作用,能够快速实现真实网络场景的重现,从而完成对网络设备及系统的测试。回
无线传感器网络是由大量低成本传感器节点,以多跳自组织形式构成的无线网络,用来监测目标区域内的敏感信息。同传统有线网络相比,无线传感器网络工作环境恶劣、无人值守且能
随着现代社会的高速发展,桌面应用程序的弊端日益显现:版本升级要求、环境重复部署、资源不可共享等等。C/S的架构已经不能满足人们的需求,特别是对于开发者而言,移动办公、资
学位
网络协议的创新是网络发展的催化剂,但是随着信息化社会的发展网络数据激增,网络实验的成本越来越高,网络协议的开发难度也越来越大。如何使网络实验可靠可控是目前面临的巨大难题。本课题涉及的网络实验床集成了成熟的开源云计算架构OpenStack、网络虚拟化Open Flow等先进技术,让网络协议实验者和开发者拥有高度仿真的实验基础设施和可视化的用户图形界面。网络实验床主要分为实验设施、实验服务、身份验证授
随着互联网技术的高速发展,传统的VoIP应用在信令面和媒体面均有较为成熟的解决方案,但依然无法摆脱集中式部署造成的性能瓶颈等问题。P2P技术具备较强的自组织、自容灾和动
随着集成电路和通讯技术的发展,由体积较小的无线传感器组成的无线传感网得以发展和应用。与普通的无线网络相比,无线传感器网络具有低速率、低能耗、自组织等特点,并且网络
随着移动互联网、社交网络、物联网等技术和应用的兴起,全球数据存储量呈现爆炸式增长,大数据时代已经来临。大数据给数据挖掘带来了新的挑战,绝大部分数据挖掘技术都来自机器学
本文以某导航卫星平台为研究背景,从理论研究价值和工程实用性相结合的角度出发,对该卫星姿轨控系统的姿态确定、姿态控制和轨道确定问题进行了方法研究和仿真实验。近年来国内
轻量级VoIP系统利用P2P技术的高可靠性、高可扩展性及低成本的优势,由核心网服务节点SN自组织形成P2P Overlay,采用标准的RELOAD协议完成资源的定位和发现,实现多种类型终端