基于树结构的精简序列模式挖掘算法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:yangliu349
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现有的序列模式挖掘算法能有效地在大型数据库中挖掘出完整的序列模式集,然而在很多实际应用中,用户更希望找出感兴趣的、更简洁的模式,而不是所有的模式。本文主要研究了如何挖掘精简序列模式,如何有效的增量挖掘精简序列模式,以及如何精确的挖掘重复间隔精简序列模式等问题,这些问题的研究在顾客购物分析,交易分析,Web页面的访问模式预测,DNA序列分析,软件行为模式分析中具有重要的意义。本文首先设计了一种基于改进前缀树的最大序列模式挖掘算法CSMS,算法利用纵向、横向结合搜索位置信息表的序列扩展匹配方法找到潜在最大序列模式,同时,把每个找到的潜在最大序列模式存储在改进的前缀树PStree中,最后通过对PStree进行剪枝,得到由最大序列模式组成的前缀树MPStree。该算法具有较好的时间效率和扩展性。其次,提出了一种基于重复链接WAP-Tree结构的闭合重复间隔序列模式挖掘算法MRCGP,算法首先为频繁1项集构建一个位置信息表,然后通过搜索位置信息表找到所有由不同项组成的2序列模式,最后构建一个重复链接WAP-Tree维护所有的频繁项集,通过逐步挖掘已存在模式的投影树,得到所有的闭合重复间隔序列模式集。该算法的性能优于CloGSgrow。最后,设计了一个面向软件漏洞特征提取的闭合序列模式挖掘算法MSPT和更新算法UMSPT。算法MSPT首先搜索半频繁和频繁2模式,然后为半频繁和频繁项构建一个漏洞序列树,利用投影技术,逐步找到半闭合和闭合序列模式。算法UMSPT插入新的序列到漏洞序列树,搜索树中新插入的分支找到新序列中的闭合和半闭合模式。最后通过检查已存在模式的包含关系以及支持度信息得到更新数据库中的所有半闭合和闭合序列模式集。本文使用现实数据集进行挖掘,通过实验对本文所提出的CSMS算法、MRCGP算法、MSPT算法以及UMSPT算法进行验证。
其他文献
随着虚拟化和云化等技术的发展,计算存储分离架构应运而生,计算存储分离具有很好的扩展性和可管理性。计算存储分离之后,资源按需扩容,使得总体成本降低。同时云化大规模并行处理
机群系统已经成为高性能计算机的主流,其中又以中小规模机群应用得最广泛。机群文件系统为机群应用提供数据存储、数据共享、数据访问等服务。高效、易管理、低成本、高可靠性
无线射频谚{别RFID(Radio Frequency Identification Technology)是一种非接触、低功耗和低成本的无线通信技术,可应用于物体识别和数据采集。与条形码相比,RFID具有非呵视传输
随着计算机技术、图像处理技术的迅速发展,外科诊断与治疗的手段正在发生着很大的变化。近年来出现的计算机辅助手术系统,仿真手术系统等就是信息科学迅速发展并应用于医学领域
正则表达式匹配是计算机研究领域的一个经典问题,是众多网络安全系统中的关键技术之一。随着互联网的的普及和发展,海量信息的处理和新的应用需求对正则表达式匹配技术提出了新
聚类与划分算法分别采用自底向上和自顶向下的方法对电路进行层次化操作和分割操作,有效提高了EDA工具处理大规模电路的效率。本文着重研究了可进行特殊结构识别与处理的层次
学位
面孔的感知和识别在人类的社会交往中扮演着及其重要的角色,人在感知面孔的时候,从中获取了大量重要的信息,这些信息提供给我们个体的身份特征和精神状态,从而确定彼此之间的相互
学位
频繁子图挖掘是指从图集获得频繁出现的子图模式,它挖掘得到的结果可用于对图集的分类和聚类研究,有助于用户了解图集的特征。目前的频繁子图挖掘算法大都是基于内存的,实际
在网络技术普及的今天,网络应用已经深入到人们的各种日常活动中,但是邮件蠕虫、特洛伊木马、拒绝服务攻击以及其他恶意行为仍然频繁的在终端用户机上发起攻击,危害企业网安
面向事件流应用的大规模数据密集型系统得到了越来越广泛的应用,本文在分析事件流应用特征的基础上,展开了查询优化的研究。大规模系统的查询优化,不仅要加速查询的执行过程,更需