论文部分内容阅读
基于基因表达谱的肿瘤分类信息基因选取问题的研究是发现肿瘤特异表达基因、研究肿瘤基因表达模式的重要手段。借助基因表达谱进行肿瘤诊断是当今生物信息学领域中的一个重要研究方向,有望成为临床医学上一种快速而有效的肿瘤分子诊断方法。本文基于肿瘤基因表达谱数据集,从研究肿瘤与正常组织分类入手,对肿瘤分类、信息基因选取问题进行分析和研究。由于基因表达谱数据存在维数过高、样本量很小以及噪音很大等特点,使得肿瘤信息基因选择成为一件有挑战性的工作。根据肿瘤基因表达谱样本集的特点,提出一种结合支持向量机应用平均影响值(MIV,Mean Impact Value)来寻找信息基因的算法,其优点是能够搜索到基因数量尽可能少而分类能力尽可能强的多个信息基因子集。实验采用了二分类肿瘤数据集以验证新算法的可行性和有效性,对于结肠癌样本集,只需3个基因就能获得100%留一交叉验证分类正确率。与基它肿瘤分类方法相比,实验结果在信息基因数量及其分类性能方面具有明显的优越性。为避免样本集的不同划分对分类性能的影响,进一步采用全折交叉验证方法来评估各信息基因子集的分类性能以优选出更优胜的信息基因子集。