论文部分内容阅读
目的利用基因表达谱数据研究肿瘤的发生发展机理,有助于肿瘤的诊断与个性化治疗。然而,基因芯片检测的基因数量巨大,检测费用也较高加之样本收集的困难,造成了基因表达谱数据高维小样本的特点。此外,基因表达数据还存在高噪声、高冗余及样本分布不均衡等特点,传统分类方法已不再适用,高维数据的分类问题正面临前所未有的挑战。特征选择与分类器相结合是解决这类问题的一种思路,本文以最大相关最小冗余朴素贝叶斯分类器(Na?ve Bayes classifier based on the Maximum Relevance Minimum Redundancy feature selection method,m RMR-NBC)为例,将其应用于模拟数据、公开的基因表达谱数据以及实际临床肿瘤样本的基因表达谱数据,并与常用分类方法进行对比研究,证明该思路的优越性,以期为实际临床肿瘤样本分类提供理论依据。方法(1)进行高维数据模拟研究,将m RMR-NBC应用于高维数据分类问题中,并将其与支持向量机、极限学习机与随机森林进行比较,探讨样本量、基因数以及信噪比对分类准确率的影响;(2)应用公开的结肠癌与肺癌基因表达谱数据,分别采用m RMR-NBC、支持向量机、极限学习机与随机森林进行比较研究,验证模拟研究结果;(3)从GEO数据库下载人类非小细胞肺癌基因表达数据集(GSE10245),共获得40例肺腺癌和18例肺鳞癌组织的基因表达谱数据。进行预处理后,采用m RMR-NBC进行分析,选取特征基因;利用迪杰斯特拉算法进行最短路径分析,筛选候选基因;利用DAVID软件进行GO与KEGG富集分析。采用文献回顾法分析对分类有贡献的基因在肿瘤发生发展中的作用。结果(1)在模拟数据中,m RMR-NBC的综合分类准确率达到96.71%,与支持向量机分类准确率相当,依次高于随机森林与极限向量机。上述几种方法的分类准确率与样本量的相关系数,均具有统计学意义(P<0.05)。其中,m RMR-NBC、支持向量机与极限学习机的分类准确率与样本量为负相关,而随机森林的分类准确率则与样本量呈正相关。随机森林的分类准确率还与基因数呈负相关(P<0.05),而暂未发现m RMR-NBC的分类准确率与基因数间的相关性。对m RMR-NBC的分类准确率进行析因设计的方差分析结果显示,仅样本量对分类准确率有影响(P<0.05)。(2)应用m RMR-NBC分析结肠癌与肺癌基因表达谱数据显示,当纳入基因数分别为15与12时分类准确率最高分别达到95.16%与97.26%,m RMR-NBC仅使用极少的属性参与分类就能得到非常好的分类效果,且随着纳入分析的基因增多分类效果逐渐趋于稳定。支持向量机在结肠癌与肺癌数据集上分类准确率分别达到90.32%与94.52%;极限学习机则分别为82.26%与69.86%;随机森林分别为81.98%与77.62%。(3)运用m RMR-NBC筛选特征基因8个;最短路径分析筛选候选基因21个,其中AURKA、SLC7A2基因分别在最短路径中出现3、2次。富集分析后发现,上述基因主要涉及卵母细胞减数分裂、细胞周期调控、癌症通路等信号通路。结论m RMR-NBC适用于处理高维小样本数据的分类问题;能在仅有极少属性参与分类时,得到较高的分类准确率,优于随机森林、极限学习机等方法;能较为准确地筛选肿瘤相关基因,这将有助于了解基因在肿瘤发生发展中的作用,推动精准医学与个性化治疗的发展。