多关系数据分类算法研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:wuyiguogdut
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多关系数据挖掘是近年来快速发展的重要的数据挖掘领域之一。传统的数据挖掘方法只能完成单一关系中的模式发现,多关系数据挖掘能够从复杂的结构化数据中发现涉及多个关系的复杂模式。多关系数据挖掘是一个跨学科领域,吸纳了归纳逻辑程序设计、KDD、机器学习和关系数据库的研究成果,致力于处理由多关系表组成的关系数据库知识发现问题,是研究挖掘多关系型数据的新型技术及其有效的应用实践。 高效性和可扩展性一直是数据挖掘领域的重要研究课题。考虑多关系数据挖掘,这个问题尤为重要。多关系数据挖掘任务的复杂性对算法的性能提出了更高的要求。与传统的数据挖掘算法相比,多关系数据挖掘算法的搜索空间变得更复杂,更大;对于单个假设的评价也变得复杂。对于多关系数据学习算法,提高算法效率的主要瓶颈在于搜索空间。为了提高多关系数据挖掘算法的效率和可扩展性,减少假设搜索空间是关键。对于这个问题主要有两种方法:一种方法是减少要评价的假设数;另一种方法是提高评价过程的效率。针对以上的问题,本文主要做了以下工作: 首先,在多关系数据挖掘领域,对于单个假设的评价可能涉及多个表之间的连接。本文针对多关系数据挖掘的数据结构复杂性,提出了一种新的方法—目标元组标识传播,大大减少了建树过程中需要连接表的次数,也就是提高了每个假设评价本身的效率。 其次,采用数值属性离散化方法及属性概念提升等方法对数据预处理,这种方法实际上减少了要评价的假设数。同时把数据预处理技术与目标元组标识传播技术结合起来,实验证明两者的结合显著的提高了算法效率。 最后,对于多关系数据挖掘算法应用于空间数据的分类进行了初步尝试,在模拟的数据上进行了实验,证实了算法的正确性和有效性。
其他文献
异构数据的集成一直都是网络数据通信、信息共享的热点研究问题。数据的异构可分为四个层次:结构异构、语法异构、系统异构和语义异构。如何有效屏蔽或消除数据源不同层次上
随着互联网短文本数据爆发式的增长,如何从短文本中找出人们关注的有价值的事件,即基于短文本的事件探测技术,成为学术研究领域的热点问题。而微博数据是短文本事件探测的典型数
在多媒体技术日益广泛的今天,图像的通信和存储占有重要的位置,数字图像包含信息量巨大的特殊性使得压缩技术成为其关键,因而探索高效图像压缩编码算法无疑将成为国际公认的
人体器官的三维重建与虚拟手术模拟是当前科学计算可视化最活跃的领域之一。肝脏作为人体最重要的器官之一,其手术也是外科手术中最复杂和失败率较高的手术之一,因此,肝脏虚拟手
随着市场竞争的加剧以及信息社会需求的发展,从大量数据中提取信息并用之于市场策略中的要求显得越来越迫切。近年来,数据仓库、OLAP和数据挖掘等面向决策支持的技术飞速发展,其
软件过程技术通过建模、运作、监控、度量过程模型,对实际的软件过程提供指导和控制,从而保证软件开发的质量、提高软件开发的效率。对软件过程的研究已经成为软件工程领域的研
学位
生物信息学是在生命科学研究中综合运用数学、计算机科学和生物学知识与工具对生物信息进行存储、检索和分析的新兴交叉学科,是当今生命科学的重大前沿领域之一,也将是21世纪自
随着国土资源部“十一五”规划的制定和开始实施,“加大对政务公开执行情况督查力度,大力推进政务信息网上公开”已成为各级国土资源管理部门“十一五”期间重点工作之一。实施
在当今竞争日益激烈的市场环境中,所有企业都希望能够从浩如烟海的商务数据中发现带来巨额利润的商机。只有那些利用先进的信息技术成功地收集、分析、理解信息并依据信息进行
学位