论文部分内容阅读
随着人类基因组计划的快速发展,生物信息学在人类疾病与功能基因的发现与识别、基因与蛋白质的表达与功能研究方面都发挥着关键的作用。通过对生物学实验数据的获取、加工、存储、检索与分析,生物信息学成为解开生物数据所蕴含的生物学意义的强大工具。尤其在疾病诊断领域,生物信息学方法结合90年代中期发展起来的一项前沿生物技术--基因芯片,通过对全基因组表达图谱进行数据挖掘,成功地为癌症的早期诊断与及时治疗做出了重要的贡献。早期人们主要以聚类算法探索完全未知的基因表达模式,其部分研究结果已经得到了肯定。随着基因分类的逐步明朗,需要更为有效的算法,对这些信息加以利用,准确、高效地预测疾病相关的基因。因此,以可靠的生物学实验结果作为先验信息的有监督算法便以其独特的优势成为微阵列实验数据分析研究的新热点。
本文提出了一种数学规划的算法,通过划定阈值进行特征基因的筛选。同时提出了采用目标规划算法进行疾病亚型分类效能的研究,该目标规划算法的泛化性能较好,比较适用于高维特征的数据。这个特征选择的过程以分类效能为辅,特征子集的筛选为主,将分类效能作为一种筛选和评价尺度贯穿于特征选择的全过程。我们将这些特征基因映射到Gene Ontology中挖掘特征基因的生物学意义。