【摘 要】
:
生物信息学数据是一类在生命科学研究中所产生的数据,具有高维,小样本等显著特点,为了有效地分析该类数据,特征选择与降维处理是必不可少的步骤。生物信息学数据中的基因表达
论文部分内容阅读
生物信息学数据是一类在生命科学研究中所产生的数据,具有高维,小样本等显著特点,为了有效地分析该类数据,特征选择与降维处理是必不可少的步骤。生物信息学数据中的基因表达数据,与其他类型的数据相比,数据量更大,增长速度更快,其中隐含的生物信息学知识量也更为丰富,处理此种数据,以往常规的特征选择算法已远远不能满足需要。因此,更为高效的特征选择算法一直是该领域的研究热点。本文立足于基因表达数据的分析要求,紧扣其高维小样本的特点,提出了一种新的面向基因表达数据的特征选择算法。基于特征信息与类别信息之间的相关程度,以及各特征之间的冗余程度,本文定义了一个可同时表征相关程度与冗余程度的判别算子,以此算子的得分做为依据,实现最大相关最小冗余的特征选择。其次针对特征之间冗余程度的特殊性,提出了加权最大相关最小冗余的思想,进一步提高了算法的有效性。随后针对常规特征选择算法难以确定最优特征子集个数的问题,提出了一种基于模糊理论的非监督特征子集评价准则,从而实现最佳特征量的选择。实验数据采用经过预处理的数据挖掘后小鼠基因表达数据(采自Leiden University),以及白血病数据集及结肠癌数据集。实验结果表明,算法性能优良,无论在算法复杂度还是正确率方面效果均有所提高。
其他文献
代人顶罪替刑行为古已有之,而近来此类事件频现报端,顶罪替刑犯罪呈上升趋势。我国现行刑法没有像我国台湾刑法那样就顶替人犯罪作专门的规定,所以导致顶罪替刑在司法实践中
羽毛球运动是目前世界上最受欢迎的球类运动项目之一,我们想要在羽坛取得更傲人的成绩,研究和采用新兴的先进的方法训练迫在眉睫。所有运动项目的开展和训练都离不开力量训练
首先对车辆换道的动态与安全进行分析,然后通过建立换道模型的方式,对换到车辆与周围车辆之间的最小安全距离展开计算。
Firstly, the dynamic and safety of the vehicle l
孝道是我国最重要的传统美德之一。目前不少中学生家庭观念淡化,功利思想严重,责任感缺失,孝道观处于断裂与冲突之中,加强中学生的孝道教育日益迫切。为此,应在了解中学生孝
在社区治理中,存在着一部分必须依靠社区居民的集体参与才能完成的复杂公共事务,居民的参与规模与参与质量将直接影响社区治理的最终效果。但是在今天的中国城市社区,居民普
2008年5月12日,我国四川省汶川县发生了里氏8.0级特大地震。此次大地震造成了大量房屋的破坏,尤其是砌体结构房屋的破坏最为严重,约占建筑破坏总面积的80%,给抗震救灾工作带
移民是自人类社会诞生以来从未间断过的世界范围内的人口迁移现象。移民有三个基本内涵和维度,一是空间维度,二是时间维度,三是数量维度。移民问题历来受到广泛关注和重视。
在体制转轨和社会转型的新形势下,我国未成年人犯罪率正呈逐年上升趋势。由于未成年人违法犯罪案件数占犯罪案件总数的比例越来越高,因此,如何有效预防和减少未成年人犯罪已
<正>众筹融资作为互联网金融的重要组成部分,近年来发展迅猛,如在淘宝网和京东商城网站上就有"众筹"栏目。2014年11月国务院出台的新版"融十条"中首次提出"开展股权众筹融资
结算业务是商业银行最传统的非利息收入来源,银行通过提供结算业务成为全社会的资金转账中心、结算中心和货币出纳中心。在当今息差收窄、金融脱媒加剧的大背景下,商业银行不