基于改进萤火虫算法的元数据聚类与集成方法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:JessicaGu45
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的不断发展,使得传统信息系统、商务智能系统得到了越来越广泛的应用。随着数据资源不断的生成和累积,数据资源中蕴含的价值得到了越来越多的重视,数据挖掘技术也应运而生。元数据作为数据库、数据仓库构建的核心工具,在数据库的组织管理、数据仓库构建,以及在此基础上的数据挖掘中扮演着十分关键的角色。聚类作为数据挖掘的重要手段之一,元数据的聚类与集成同样为面向数据仓库的数据挖掘提供了一个更为有效的途径。然而,目前针对元数据聚类与集成的研究并不多见。大数据环境下,尤其是面向数据流环境,数据结构更为复杂、数据规模更为庞大,数据生成也更为动态化,这使得元数据的聚类与集成面临新的挑战。因此,本文针对元数据的聚类与集成问题,将具有全局寻优能力的群智能优化算法引入到元数据聚类问题的求解中,提高数据仓库构建和管理中元数据聚类的准确率和元数据集成管理的有效性。
  围绕元数据的聚类与集成,本文将改进的群智能萤火虫算法引入到元数据的聚类问题求解和集成方案设计中,并从元数据记录、元数据树两个层面研究了相应的聚类方法,从同构、异构两个角度研究相应的元数据集成方法。本文的主要研究工作和创新点可以简要概括如下:
  (1)基于动态索引树的思想,设计了一种面向静态元数据管理的集成方法。针对传统的静态元数据集的集成问题,着重研究了多属性异构元数据的集成策略。首先,设计了一种基于动态索引树的同构元数据集成方法,并在元数据集成的同时实现相应的清洗操作。在此基础上,通过设计多层次的元数据相似度度量方法,构建面向多属性异构元数据的集成方法。
  (2)面向元数据记录,设计了基于改进萤火虫算法(Glowworm Swarm Optimization,GSO)的元数据记录聚类方法。依据对象的不同,本文将元数据的聚类问题,划分为元数据记录聚类和元数据树聚类两个层面。在元数据记录的聚类方法研究中,将佳点集理论引入GSO算法中,优化GSO算法的初始种群分布,提高GSO算法的聚类效果,将改进的GSO算法与K-means算法、K-prototypes算法相结合,设计新的元数据记录聚类算法GSOK(Optimization algorithm based on GSO and K-means),以及算法GSOKP(Optimization algorithm based on GSO and K-prototypes)。
  (3)面向元数据树,设计了基于GSOKP算法的元数据树聚类方法。针对元数据树的结构化特征,通过将GSOKP算法与最大频繁路径技术相结合,采用最大频繁路径的相似度实现对元数据树相似度的度量,以提升计算效率,并对最大频繁路径的特征向量进行新的设计,以提升聚类准确率。在此基础上,设计新的元数据树聚类算法GSOKP-FP(Optimization algorithm based on GSOKP and maximum frequent path)。
  (4)面向动态元数据管理的聚类与集成,基于对元数据记录、元数据树聚类方法的研究,并结合静态元数据集成中动态索引树的基本思想,面向数据流环境,研究基于增量式决策树的动态元数据聚类与集成方法。首先,设计面向元数据的增量式决策树的构建方法;其次,设计增量式元数据决策树的聚类、分枝、剪枝等操作的具体实现方法;第三,在聚类操作中引入GSOKP算法、GSOKP-FP算法用以求解元数据记录和元数据树的聚类问题,并通过信息增益以及类别标记错误率来实现分枝、剪枝操作,控制增量式元数据决策树的规模,实现对元数据更加有效的集成管理。
其他文献
学位
目的:采用Lable-free(非标记定量蛋白组学)技术,从唾液蛋白组的动态变化中证实肾-唾相关的科学内涵;探索肾虚体质、肾虚证候的的特异性差异蛋白及其形成过程中的生物标志物,探索六味地黄丸的药物分子靶标,为多种慢性病、老年病的防治提供客观依据。  方法:①基于“恐伤肾”理论,采用“猫吓鼠”的实验动物造模方法,复制“先天不足+后天失养”的肾虚质动物模型。将16只孕鼠随机分为Ⅰ、Ⅱ组,Ⅰ组6只孕鼠孕
目的:本项研究通过观察药物白藜芦醇对自然衰老小鼠血清中过氧化氢(H2O2)含量,和皮肤组织中三磷酸腺苷(adenosine-triphosphate,ATP)酶活力的影响,以及观察自然衰老小鼠皮肤组织结构的变化,来探讨白藜芦醇延缓皮肤衰老的作用。  材料与方法:选用健康4月龄昆明种小鼠12只,作为青年对照组(A);健康18月龄昆明种小鼠60只作为老年组,再随机分成5组,每组12只:老年空白对照组(
学位
跨期选择是日常生活中最常见的决策类型之一,折现结构作为跨期决策研究的重中之重,是目前行为金融学研究的前沿问题。大量实验经济学研究表明折现率递减的双曲折现比早期所使用的指数折现更符合实际。并且,与指数折现隐含行为主体时间偏好一致不同,双曲折现能刻画时间不一致偏好,并逐渐成为最被广泛接受的折现框架。本文以经典的消费储蓄投资组合选择问题为切入点,对时间偏好在跨期决策中所起的作用进行了理论分析。  第2章
现阶段图书馆服务目标的调整与传统服务职能的创新化变革,使得升级读者馆内服务体验、满足读者馆舍环境文化享受的呼声日渐高涨。后数字图书馆时代中,智能技术的发展加速了图书馆环境变革的实践进展,引起了人们对读者馆内活动体验与馆舍物理空间利用问题的思考。实体资源检索行为作为重要的读者馆内活动类型,成为理解读者馆内行为模式特征,洞察读者入馆活动心理,审视馆舍空间环境设计合理性的重要切入口。高校读者实体资源检索
进入新世纪以来,科学技术的不断进步和社会活动的日益密切,使得人类在分享科技成果带来的社会文明同时,也面临着全球范围内各类突发事件日益频发的风险。特别是近年来,我国煤矿企业突发安全事故频频见诸报端,对煤矿突发事故的探讨,成为业界和学界关注的热点议题。煤矿安全事故发生后,矿山救护队员需要在第一时间、最短时间展开应急救援。但由于对事故致因和工作现场环境的不可预知性,导致救护队员需要承受较大的心理压力和情
随着全球经济快速发展,能源资源短缺、环境污染、全球气候变暖等问题变得更加严峻。工业制造业作为许多国家的经济支柱,是能源消耗和碳排放的主力产业。电能是工业部门使用的主要能源,但其在使用中由于技术管理水平落后,存在利用效率低的问题。因此,响应国家号召推行绿色生产,提高工业制造业的能源利用率,尤其是电能的利用率,对于节约能源和实现可持续发展具有重大意义。  分时电价(Time-of-use,简称TOU)
学位
快速发展物流业,提升制造业水平,成为我国国民经济发展的必然趋势。在现实中,制造业的服务需求和物流业的服务供给会出现错位,合作关系的不稳定导致产业之间较低的合作效率。物流业与制造业之间的合作发展问题,成为阻碍物流业和制造业平衡和充分发展的主要问题。制造业是物流业发展的需求基础,物流业同时影响制造业的发展速度,两个产业唇齿相依,相互渗透相互融合。只有推动物流业与制造业的共生演进发展,才能清楚的认识到产
学位
作为国民经济的主体,工业产业已经成为电力能源消耗的最大部门。为增强电网高峰能力、缓解高峰期电网负担,许多国家广泛采用分时电价策略以鼓励电力用户将其消耗从高峰期转入低峰期。这为制造企业提供了良好的节约能源成本的机会,尤其对能源密集型企业。作为调度领域的重要分枝,批调度问题经常出现于高能耗产业中,如钢铁制造和航空产业等,具有极强的现代工业应用背景。同时,批调度问题突破了经典调度中对机器加工工件数目的限
学位
研发国际化作为企业提升和保持持续竞争力的重要手段,一直是理论界和实践界关心的重要话题。虽然,对于研发国际化影响因素的研究已经取得了丰硕的成果。但是,受研究视角的限制,关于该主题仍有一些有价值的研究问题没有被关注或给予很好的解释。现有研究主要基于传统的国际化理论,从企业资源、能力、国际化过程以及东道国的环境特征入手探讨研发国际化的影响因素,包括影响区位选择和功能选择的因素。  然而,这些研究还存在以
学位