后缀数组诱导排序算法的优化

来源 :中山大学 | 被引量 : 0次 | 上传用户:bin52833093
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
后缀数组构造算法是建立大文本全文索引最主要的方法之一,在网络Web搜索以及生物信息学(基因数据库)等领域,有极其重要的应用。由于这方面应用处理的数据是数于亿计的字符,高效的后缀数组构造算法对于数据库索引的建立至关重要。 本文基于对一种新的诱导排序算法的分析,针对其使用空间过多,分析了诱导过程三个重要性质,在此基础上优化了类型数组的存储并改进了诱导过程,实现了优化后诱导排序过程算法,并从理论上证明了诱导过程的正确性;然后分析了LMS字符的一个重要性质,在此基础上完善了LMS字符信息的存储,接着结合诱导排序构造后数组算法思想实现了后缀数组构造算法。 本文中改进的新算法,在不引入额外空间的情况下,找到消去类型数组存储空间的方法且增加的时间消耗甚微。为了验证优化后诱导排序算法的可行性及其运行效率,我们对所实现的诱导排序构造算法与KS、KA和IS算法进行对比实验,在Canterbury和Manzini-Ferragina数据集上进行验证和性能分析。实验结果显示优化后实现的构造后缀数组算法执行时间比KA算法快30.9%,比KS算法快218.2%,实验数据表明优化后诱导排序算法可在节省算法存储空间的同时,有效的保持算法执行效率,显示优化后的诱导排序算法具有较好的时间空间性能。
其他文献
当前的WebGIS系统普遍存在数据可重用性差、客户端通用性差、对平台的依赖性强、开发复杂度高等问题,迫切需要引入新的技术来进行改进。目前计算模式和程序设计模式领域己经发
随着Web信息资源的迅速增加,如何在浩瀚的信息海洋中准确、方便、快速地找到自己所需的信息,是个迫切需要解决的问题。由于自然语言的模糊性和用户信息需求的随机性和动态性,
在基于UML的软件开发过程中,各种UML图形从不同侧面描绘着所开发的软件系统,这些图形之间存在着信息的重叠,从而导致UML模型的一致性问题。UML模型的一致性问题也是建模过程中一
GUI测试多采用基于规约(Specification)的方法,即检查软件实现是否与规约一致。这种测试通常先基于规约建立测试模型,然后再在模型的基础上生成测试用例。当前描述GUI的测试模
随着国民经济的飞速发展,人们对通信业务的需求不断增加,对服务质量的要求也不断提高。电信运营支撑系统和运维支撑系统接口的结构化运行模式已不能满足市场发展的需求,迫切
聚类作为挖掘数据结构信息的有效工具之一,已被广泛应用于图像处理、生物信息学与数据挖掘等众多领域。根据在聚类目标函数中是否引入特征权重,可将聚类算法分为传统聚类算法
网络广泛存在于自然界和人类生活中。网络中的各种有害传播给经济、社会、生态等带来巨大挑战,寻找有效的干预策略实现对网络传播的控制是一个重要的研究问题。本文从两个方
近年来,随着医学成像技术的发展,从神经影像中发现对脑疾病敏感的生物标记和结构或功能连接特性,并用于脑疾病的分类,已成为一个新的研究热点。基于数据挖掘和机器学习的技术
光波分复用(WDM)使一条光纤链路可以互不干扰地同时传输多种不同频率的光波信号,从而提高光纤带宽的利用效率。目前,WDM已经成为构建高性能网络的一项重要技术。HORNET是为城域
本课题实现在嵌入式Linux下IDE硬盘的驱动,实现对IDE硬盘的管理。在此基础之上,实现简易的FAT16文件系统,满足一般的读写操作要求;充分利用Linux资源,完成了在ARM9嵌入式平台