基因表达数据的聚类算法研究

来源 :中国科学院软件研究所 | 被引量 : 0次 | 上传用户:WUBING999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因表达数据的爆炸性增长迫切要求自动、有效的数据分析工具。目前聚类分析已成为分析基因表达数据、获取生物学信息的有力工具。   为了更好的挖掘基因表达数据,近年来提出了大量基于传统聚类的改进算法和新型聚类算法。本文首先简单介绍了基因表达数据的荻取和表示,然后介绍了基因表达数据聚类分析中常用的距离度量。系统地阐述了目前基因表达数据分析中的各种聚类算法,并根据聚类目标的不同将算法分为基于基因的聚类、基于样本的聚类和两路聚类。   根据基因表达数据的特点和基于密度的聚类算法的研究,本文提出了2种新型的基于密度的适用于基因表达数据的聚类算法。基于密度的聚类算法是处理基因表达数据的有效工具,但是传统的基于密度的算法,如DBSCAN,只能设定全局密度阈值而无法得到不同密度的聚类。本文提出的两种算法都克服了该缺陷,取得了较高精度的聚类结果。两种算法为DENGENE(DENsity-basedaustering using homoGENEit),test)和DENCH(DENsity-based hierarCHicalclustering)。   DENGENE算法通过定义一致性检测和引进峰点改进搜索方向,使得算法能够更好地处理基因表达数据。通过使用一致性检测有效提高了聚类结果的精确度,克服了DBSCAN在全局阈值下易于过合并的缺陷。通过定义峰点(peakpoint),也就是密度比其邻域内点都大的核心点,来改变聚类的生成方式。聚类扩展时从峰点出发,且每次扩展都只能沿密度最大的方向进行。   DENCH算法成功的结合了基于密度的聚类和层次聚类的优点,同时克服了两者的缺点。利用密度的概念较好的滤除了噪声,利用层次结构获得了数据分布的全局信息,因而能够有效的获得密度差异较大的聚类,克服了传统的基于密度的算法的缺陷。与传统的层次聚类相比,DENCH的层次结构中的基本单位是一组点而不是一个点,使得DENCH的健壮性显著提高。此外DENCH还提供了自动将层次聚类结构转化为直接划分的聚类结果。   为了评价算法的性能,选取了两组广为使用芽殖酵母基因表达数据集对算法来进行测试.实验结果表明,和基于模型的五种算法、CAST算法、K-均值算法等相比,DENGENE和DENCH在滤除噪声和聚类精度方面取得了显著的改善。   为帮助用户有效的分析基因表达数据,开发了基于Java/SWT的工具GeneXP。该工具集成了多种聚类算法,除DENGENE和DENCH外,还包括层次聚类算法、K-均值算法、自组织映射,模糊C-均值算法等。GeneXP还提供了常用的数据预处理功能和多种不同的距离度量功能。用户可使用可视化工具来直观的分析聚类结构,还可有效比较不同的聚类结果,以及集成不同聚类算法的处理结果。
其他文献
集装箱自动引导车(AGV)是工作在集装箱码头的自动化搬运设备。现有的集装箱AGV大多是采用电磁感应的引导方法,它需要在地面埋设用于产生电磁场的电缆,因此地面施工量大、改道不
嵌入式操作系统电源管理的目标是根据系统运行时任务特征和性能要求,利用硬件提供的控制能耗的措施,控制硬件的能耗状态,从而在保证任务的性能的前提下,最大限度地节省电能的消耗
客户流失分析是移动数据仓库中数据挖掘模型建设的重要模型之一,其主要目的是对移动客户基本信息和过去一段时间内的历史呼叫记录进行挖掘分析,提取出客户离网倾向的信息,这样移
开发人员对软件的约束性需求的重视程度一直低于功能性需求。随着软件规模与复杂性的增加,以及网络环境带来的运行环境复杂化,使得软件在运行时刻出错的几率大大增加。因此对软
随着Internet及其技术的高速发展,Web已经成为人们获取新闻信息的重要来源。Web信息提取和集成系统把网页中这些相关数据提取出来,集成到XML或者关系数据库中,提供结构化查询、
工作流技术是实现企业业务过程建模、过程管理与过程自动化的核心技术。随着信息技术的发展和计算机应用的普及,工作流技术正在受到越来越多的关注。在与工作流相关的各类技术
系统软件的开发有着调试困难、测试方法有限、开发周期长、对系统稳定性和性能影响大等特点,因此除了良好的调试手段、开发过程和编码风格之外,研究和开发保证系统软件可靠性的
在信息安全领域中,访问控制一直是人们广泛研究的课题,人们已经相继提出了多种访问控制模型,例如自主访问控制模型、强制访问控制模型和基于角色的访问控制模型等。其中基于角色
云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。在云计算中,云供应商允许开发者将写好的程序放在其提
随着网络技术的高速发展,信息的传输速度变得越来越快,网络在我们的生活中发挥着越来越重要的作用,然而,在我们尽情的享受网络给我们带来的巨大的便利的同时,我们也开始面临着信息