基于最大相关最小冗余朴素贝叶斯分类器的肿瘤分类方法研究

来源 :重庆医科大学 | 被引量 : 0次 | 上传用户:huangshuhui1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的利用基因表达谱数据研究肿瘤的发生发展机理,有助于肿瘤的诊断与个性化治疗。然而,基因芯片检测的基因数量巨大,检测费用也较高加之样本收集的困难,造成了基因表达谱数据高维小样本的特点。此外,基因表达数据还存在高噪声、高冗余及样本分布不均衡等特点,传统分类方法已不再适用,高维数据的分类问题正面临前所未有的挑战。特征选择与分类器相结合是解决这类问题的一种思路,本文以最大相关最小冗余朴素贝叶斯分类器(Na?ve Bayes classifier based on the Maximum Relevance Minimum Redundancy feature selection method,m RMR-NBC)为例,将其应用于模拟数据、公开的基因表达谱数据以及实际临床肿瘤样本的基因表达谱数据,并与常用分类方法进行对比研究,证明该思路的优越性,以期为实际临床肿瘤样本分类提供理论依据。方法(1)进行高维数据模拟研究,将m RMR-NBC应用于高维数据分类问题中,并将其与支持向量机、极限学习机与随机森林进行比较,探讨样本量、基因数以及信噪比对分类准确率的影响;(2)应用公开的结肠癌与肺癌基因表达谱数据,分别采用m RMR-NBC、支持向量机、极限学习机与随机森林进行比较研究,验证模拟研究结果;(3)从GEO数据库下载人类非小细胞肺癌基因表达数据集(GSE10245),共获得40例肺腺癌和18例肺鳞癌组织的基因表达谱数据。进行预处理后,采用m RMR-NBC进行分析,选取特征基因;利用迪杰斯特拉算法进行最短路径分析,筛选候选基因;利用DAVID软件进行GO与KEGG富集分析。采用文献回顾法分析对分类有贡献的基因在肿瘤发生发展中的作用。结果(1)在模拟数据中,m RMR-NBC的综合分类准确率达到96.71%,与支持向量机分类准确率相当,依次高于随机森林与极限向量机。上述几种方法的分类准确率与样本量的相关系数,均具有统计学意义(P<0.05)。其中,m RMR-NBC、支持向量机与极限学习机的分类准确率与样本量为负相关,而随机森林的分类准确率则与样本量呈正相关。随机森林的分类准确率还与基因数呈负相关(P<0.05),而暂未发现m RMR-NBC的分类准确率与基因数间的相关性。对m RMR-NBC的分类准确率进行析因设计的方差分析结果显示,仅样本量对分类准确率有影响(P<0.05)。(2)应用m RMR-NBC分析结肠癌与肺癌基因表达谱数据显示,当纳入基因数分别为15与12时分类准确率最高分别达到95.16%与97.26%,m RMR-NBC仅使用极少的属性参与分类就能得到非常好的分类效果,且随着纳入分析的基因增多分类效果逐渐趋于稳定。支持向量机在结肠癌与肺癌数据集上分类准确率分别达到90.32%与94.52%;极限学习机则分别为82.26%与69.86%;随机森林分别为81.98%与77.62%。(3)运用m RMR-NBC筛选特征基因8个;最短路径分析筛选候选基因21个,其中AURKA、SLC7A2基因分别在最短路径中出现3、2次。富集分析后发现,上述基因主要涉及卵母细胞减数分裂、细胞周期调控、癌症通路等信号通路。结论m RMR-NBC适用于处理高维小样本数据的分类问题;能在仅有极少属性参与分类时,得到较高的分类准确率,优于随机森林、极限学习机等方法;能较为准确地筛选肿瘤相关基因,这将有助于了解基因在肿瘤发生发展中的作用,推动精准医学与个性化治疗的发展。
其他文献
构建和谐医院是构建社会主义和谐社会的重要组成部分。作为医院党组织的领导干部,一定要认真学习贯彻党的十六届六中全会精神,审时度势,结合实际,抓好重点工作,积极推进和谐医院的
本刊讯 为进一步加强市教育局直管学校地震应急预案体系建设,有效提升学校地震应急预案编制和管理水平,梧州市教育局与市地震局协商,联合举办了市直属中学地震应急预案修编骨干培训班,市直属中学分管领导及预案修编骨干等30多名相关工作人员参加培训。本次培训班的目的是为了更好地贯彻落实防震减灾“一法一条例”关于地震应急法的要求,并结合目前该市市直学校地震专项应急预案编制情况,进一步规范地震应急预案的编制工作,
议论文写作是让大部分学生惧怕的话题,也是令广大教师头疼的问题。笔者在教学实践中对初中语文议论文写作教学进行研究,总结出议论文写作"三步走"教学法,即让学生准确提炼论点,
目的探讨残胃癌与残胃复发癌的早期诊断与外科治疗的方法.方法回顾性分析我院1985-2003年间收治的36例患者,其中残胃癌21例,残胃复发癌15例的临床、病理资料.结果残胃癌多在
怎样识别病猪1、看行动猪生病一般表现为精神萎靡,动作呆滞,脊背发硬,行走摇摆,步态不稳,尾尖下垂。2、看皮肤注意皮肤是否粗硬、缺乏弹性,有无肿胀、溃疡、红斑、烂斑、小结节、猪丹
类比推理是将两类或以上的对象进行类比分析和推理论证,延伸得出一些未知的知识与规律。根据一类对象与另一类对象相似的属性,推理出其他类似的特定属性。类比推理是人类思维中
为解决大量产籍信息入库和现场确权工作的不可操作性问题,采用鱼鳞图作为确权颁证的依据,并基于ArcGIS Engine的二次开发,编写了确权影像裁切程序和图片导入工具,集成产权、
“清廉大佛”的启示毕金报载:在四川乐山的三江合口处,坐着一尊不受香火的清廉大佛──弥勒佛。雕凿这尊大佛的工匠着实伟大,在他斧凿的大佛前,人们看不到一炷香一支红烛,一人跪拜
目的:探讨腰椎间盘突出症的多层螺旋CT影像表现及其病理学基础,提高对该病的定位及定性准确率。方法:对已经手术证实的腰椎间盘突出症并在术前进行多层螺旋CT检查的病人的CT轴位
我从来没有想到的谭安济我出生于1928年,1954年起就担任农业社会计。1984年上级把我从村里抽调到合作基金会工作。由于年龄不饶人,工作力不从心,经多次书面和口头申请,1994年初终于得到乡党委的批