微阵列数据分析中的基因选择及样本分类方法研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:LAJIFIFI
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微阵列技术给生物学研究领域提供了极为丰富、详尽的基因表达信息。对微阵列数据的分析研究可以帮助人们理解生命现象的机理,并促进医学向更精确的诊疗方向发展。鉴于基因微阵列数据的高维小样本、高噪声等特点,迫切需要借助于先进的计算方法来分析和利用这些原始信息。微阵列数据分析是生物信息学的重要研究课题,检测差异表达基因、最大化样本分类准确率是其中两大关键技术。本文从基因选择、基因约简、样本分类三方面展开研究,并取得如下研究成果:首先研究了差异表达基因选择问题,提出了基因差异表达显著性阈值的计算方法。该方法通过构造一个优化的统计量,根据给定的错误率指标估算出统计量的阈值,使得统计量大于该阈值的基因可被认为是差异表达基因。仿真及真实微阵列数据上的实验结果验证了该方法的有效性。在本论文中,差异表达基因被用作样本分类的特征基因。在确定基因是否差异表达的基础上,为了减少特征基因冗余对样本分类的影响,研究了多种基因约简方法。约简是基于粗糙集理论的知识发现过程。经典的粗糙集理论建立在等价关系基础上之上,其结果对数据噪声较为敏感。本论文提出了Spearman秩相关分析、近似分布约简、区间值分析等基因约简方法。实验结果表明,通过这些方法优化的特征基因集有效地提高了样本分类的准确率。微阵列数据的小样本特性给现有的分类算法带来了新的挑战。本文提出了一个基于主曲线的微阵列数据分类方法。该方法首先在训练数据集上计算出每类样本的主曲线,然后根据测试样本与各类样本的主曲线间距离的期望方差来确定测试样本所属的类别。实验结果表明,该方法在处理样本数量偏少的数据集时,较之其他几种主流分类方法有一定的优势。
其他文献
通过扫描电子显微镜对我国中新世——第四纪地层中的变异直链藻、尤氏直链藻和波纹直链藻及其诺尔曼变种的一些微细结构进行了研究。发现变异直链藻的壳壁由内、外二层。在外
随着中国经济社会的发展,体育运动社会化和产业化的扩张速度日益加快.社会产业结构的调整为体育产业的发展提供了良好的机遇,体育产业与经济增长点的问题成为当前体育界和经
教师要想做一名人民满意的好教师,就要做到爱岗敬业、爱学生、自尊自爱、爱学习,不断锤炼师德,教学相长。
网络化控制系统(Networked Control Systems,NCSs)是指通过网络实现控制系统元件(控制器、传感器、执行器等)之间信息交换的控制系统。相对于网络化控制系统在控制与估计方面
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
本文从夏禹治水起,对太湖历史上进、出水道的变迁和治理作了较全面的论述.记述了从唐代后期至今的1000多年中,在太湖发生的水旱灾害和灾异的规律以及历代对太湖治理的措施和
随着我国空间技术的不断发展,登月探测已经列入了我国近期的宇航计划中,月球车作为登月探测的先行者,对它的研究已经得到了国家重点科研项目支持。为了能够在复杂月面环境下
目的观察饮食护理在糖尿病血糖控制中的意义与价值。方法选取我院收治的糖尿病患者120例,将其分为观察组(60例,饮食护理)和对照组(60例,常规护理)。比较两组临床总有效率及血糖相
失业、物价与经济增长是经济理论争论的焦点,也是货币政策调控的重点,对三者相互关系描述即菲利普斯曲线。我国经济正处于经济转轨时期,经济增长、物价和失业也是我国经济可
我院自1995年1月~2005年1月共收治胫骨骨折430例。经手术治疗后出现骨不连、骨延迟,不愈合20例,现分析如下: