不完备系统中混合数据关联规则挖掘的研究

被引量 : 4次 | 上传用户:huangxiaojie33
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多,激增的数据背后隐藏着许多重要的信息,人们希望能够对数据进行分析,以便挖掘出其中的关系和规则。数据挖掘技术应运而生,它是目前数据库和信息决策领域最前沿的研究方向之一。关联规则挖掘作为数据挖掘的一个重要分支,其主要目的是从大型数据集中发现隐藏的、有趣的、属性间存在的规律。关联规则挖掘问题最初仅涉及事务数据集。事务数据集中不存在属性值丢失的问题,但空缺值广泛存在于日常数据库中。粗糙集正是处理不精确、不确定以及不完全数据的数学理论。它对问题的不确定性的描述或处理比较客观,与其它数据挖掘技术有很强的互补性。另外,对含有离散属性和连续属性的混合数据进行关联规则提取是一个重要的课题,通常的做法是先对连续属性进行离散化预处理,然后进行关联规则提取。本文的主要研究工作包括以下几个方面:(1)分析了现有的对不完备信息系统中空缺值的处理方法及其优缺点,根据粗糙集的上下近似及边界域的概念,提出了不完备系统中关联规则支持度和置信度的新计算方法。使用新的支持度和置信度可以不处理空缺值而直接提取带结论域的关联规则。实例分析验证了算法的正确性和有效性。(2)提出了一种计算候选断点集合的算法,该算法不但能够保证信息系统的分辨关系,而且求得的候选断点集合的基数远小于全部断点总数。算法分析表明该算法减小了后续算法的时间和空间开销。(3)构造了一种双层免疫遗传算法,该算法不进行离散化预处理,而直接在混合数据中挖掘关联规则,克服了连续属性的离散化预处理会使原始信息系统失真的缺点。实验表明,该算法具有良好的计算性能,并且得到有效的关联规则。(4)设计了一个针对不完备系统的混合数据关联规则挖掘模型,应用本文算法在该系统中无需处理空缺值、无需进行离散化预处理而直接提取规则,最后部分实现该模型的功能。
其他文献
随着我国建设规模的加大,特别是大中城市,为充分利用地下空间,在地下结构的设计深度上有逐步增大的趋势。上海、北京等地区地下3~4层的结构已十分普遍,一些下沉式广场和地下车
信息披露一直是现代资本市场理论界关注的焦点之一,它起源于外部投资者与内部管理者之间存在信息不对称以及代理成本双重问题。增大公司信息透明度,对于投资者与上市公司双方
随着我国股票市场的跨越式发展,基金规模也迅速扩大,越来越多的家庭和个人投资者选择通过购买基金的方式参与股票市场投资。证券投资基金作为机构投资者具有规模经济和信息优
企业资源计划(Enterprise Resource Planning,简称ERP)是指整合企业内部资源的企业经营管理系统,它将企业的物流、资金流和信息流统一起来进行管理,最大限度地利用企业的现有
我国商业银行业经过近二十年的快速发展,已经呈现出数量迅速增加、规模急剧扩张的特征,但同时也在经营管理方面暴露出不良资产居高不下、资本严重不足、金融案件频发、经济效
高校校办企业文化从根本上讲在企业经营的校园与社会文化基础上,以企业经营者的经营哲学和经营理念为主导的,通过校办企业广大员工的认知和贯彻,并得到社会大众、特别是高校校办
西瓜是一种广受世界各国消费者喜爱的水果,坚实度是西瓜的一个重要品质指标,文章利用可见/近红外漫透射光谱技术进行了西瓜坚实度(FM)的无损检测研究。采用偏最小二乘法(PLS)和主成
残疾人事业是中国特色社会主义事业的重要组成部分,而劳动参与和就业问题是残疾人事业的关键议题。对于这一问题,国外已有几十年的研究历史,国内的研究历史较短,并且缺乏运用
本论文采用分子生物学方法对一株从形态学上被认为小球藻属的藻株进行鉴定,确定它是蛋白核小球藻(Chlorella pyrenoidosa)。之后通过单细胞分离法和紫外诱变两种方法来筛选具
本文对割草机的国内外研究进展进行了大量调研,介绍了PIV技术和叶轮机械内部流场研究的国内外进展;对各种单相气体流动的数学模型进行对比,建立了适合割草机流道气体流动的数