基于进化计算的最大相似双聚类分析及其应用

来源 :湖南大学 | 被引量 : 0次 | 上传用户:aini412319016
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因芯片实验产生的基因表达数据是一个规模巨大的数据集合,通常包含成了千上万个基因,上百个样本,因此数据具有维度高、数据量大等特点。同时又因为生物个体本身的复杂性,基因表达的水平可能具有极大的差异,也可能高度相似,呈一种无序分散的状态。这些数据背后隐藏着巨大的信息,因此需要通过对基因表达数据的挖掘来揭示这些隐藏的信息。而双聚类是基因表达数据一种很好的分析工具,相比传统的聚类方法,双聚类能够挖掘出更加相似且具有生物意义的信息。因此,本文对基因表达数据的双聚类算法做了一系列的研究,主要工作有以下几点:首先,本文研究了双聚类的类型、结构、以及搜索策略,分析主流双聚类算法的特点,研究基于进化计算的双聚类算法的模型,并提出可以改进的方向。其次,本文最主要的工作是提出了一种基于进化计算的最大相似双聚类算法,用于基因表达数据的分析。该算法首先利用特征选择算法从基因表达数据中选择部分列作为参条件;然后基于参考条件将数据矩阵进行矩阵转换;接着根据参考基因求得转换矩阵的相似矩阵;最后利用进化计算方法,按照二元编码规则,初始化种群,进行迭代直到进化结束,得出最优个体。算法将满足一定条件的最优个体解码成双聚类并将结果保存于结果集中,最终输出一个双聚类的集合。最后,本文在各类基因表达数据上做了对比实验来检验算法的性能。第一类数据为创建的模拟数据集,第二类数据是两个酵母菌的基因表达数据,第三类数据是癌症基因表达数据。本文对从各类数据搜索出的双聚类按照一定的评分准则打分,比较各个双聚类算法的评分结果,验证了算法的性能优于某些其他的双聚类算法。另外,第三类数据的实验结果证明本文的双聚类算法对癌症的分类有不错的结果。
其他文献
河北省高校学报研究会2008年学术年会于11月4日-6日在衡水学院召开。来自全省高校的近80名代表围绕“以科学发展观为指导,努力打造品牌期刊”的主题,畅谈经验、交流体会,共同
高光谱图像,作为一种被动式传感器数据,具有图谱合一的优势,其蕴含着丰富的光谱信息,可以根据物体的不同反光率对物体实现有效识别。随着高光谱图像的空间分辨率提升,使得空间信息在高光谱图像分类识别中发挥着愈加重要的作用,同时考虑高光谱图像中的光谱-空间信息协同分类成为了一个研究趋势。LiDAR(Light Detection And Ranging)图像是一种主动式传感器数据,其蕴含着丰富的高程和结构等
现代综合性教学空间的设计越来越注重空间使用的灵活性与适应性,即模块化、标准化已成为建筑单元设计的基本特征。一座建筑的使用寿命少则50年,多则上百年,而科研人员的需求
随着互联网和图像采集设备的快速发展,数字视频及图像的数量呈爆发式增长。快速自动化处理海量影像,并从中自动提取出有效信息已经成为计算机视觉领域的一个关键问题。受到人类
本文简要分析了广播发射台站工程建设项目在投资决策、设计、招投标、建设施工和结算等各阶段,如何进行投资控制,同时,提出了一些有效的管理措施及建议。 This paper briefl
当今报业正经历跨时代的发展和变革,各地报纸正如雨后春笋,蓬勃发展,报业正进入有史以来竞争最激烈的时代,彻底改变了原先各地只有一两份报纸的尴尬局面。除了党报,各个领域
当前,运动目标跟踪技术方面的研究已有许多,具有广泛的应用价值。足球运动已成为全球最流行的体育运动之一,拥有极高的比赛关注度,球员跟踪对于普通观众、教练员和裁判员都具有重
近年来,视频监控系统发展迅速,广泛地应用到了交通运输、金融银行、军事安全等诸多领域,是计算机视觉的重要应用。复杂场景的运动目标检测技术是智能视频监控领域的研究热点,
金秋十月,由河北省迁西县委宣传部、县广播电视局、县旅游局联合主办的“海德利”杯“栗乡之星”电视节目主持人大赛在该县成功举办。这 In the autumn of October, the “H
随着网络通信技术的发展,网络应用给我们的日常生活带来便利的同时,也暴露出越来越多的安全问题。目前,网络安全主要依赖于安全产品进行处理、分析。然而,随着网络攻击手段的繁复