论文部分内容阅读
机器学习主要是一种基于数据的概率统计模型,它推理和发现数据中的知识,并利用抽象出的数据模型对数据进行分析与预测。数据质量的优劣直接影响机器学习的性能。在医学领域,基因表达谱数据获取过程中含有较大的实验误差,且随着数据维度的急速增加会含有大量的无关基因及冗余基因,这些信息不仅降低了机器学习算法的性能,而且也为肿瘤诊断与预测带来了巨大的挑战。为此,针对高维少样本的基因表达数据,需探索鲁棒性更强、更具解释性的算法模型,从海量数据中找出关键的信息基因对肿瘤疾病的诊断具有重大的研究意义和应用价值。针对当前基因特征选择算法普遍存在泛化能力较差和运行效率较低的问题,本文主要从监督学习角度研究肿瘤基因表达谱,选取高度相关、低度冗余的特征子集,提高算法的分类精度和运行效率。本文的创新点如下:(1)为解决传统基因选择方法会选出大量无关基因从而导致样本预测准确率较低的问题,本文提出了一种基于logistic与相关信息熵的特征基因选择方法。首先采用logistic回归模型比较两个条件概率值的大小,获得对分类影响较大的基因,可有效降低后续计算的时空消耗;其次引入Relief算法计算特征基因的重要性并排序,删除无关特征以生成候选特征基因子集;然后构建相关系数矩阵,依此衡量特征基因间的相关性,剔除冗余基因,在一定程度上避免了样本数据与模型出现过拟合;最后利用支持向量机作为分类器对得到的特征基因子集进行分类。通过UCI数据集的交叉检验结果表明,所提出的方法能有效剔除无关基因且获得较高的正确识别率。(2)鉴于传统基因选择方法会选出大量冗余基因从而导致样本预测准确率较低的问题,本文提出一种基于信噪比与邻域粗糙集的肿瘤特征选择方法。首先从度量特征权重角度入手,采用改进信噪比指标选出预选特征基因子集,将获得的信噪比值划分为不同区间,选取信噪比值较大区间内的基因作为候选特征基因子集;在此基础上,从属性约简思想出发,利用邻域粗糙集剔除候选特征基因子集中的冗余基因,获得较优特征基因子集;最后利用三种不同的分类器对特征基因子集进行分类。实验结果表明,该算法能获得较小的特征基因子集,且提高了样本分类正确率。(3)针对现有特征选择方法未充分考虑特征之间的相关性导致分类精度低的问题,本文提出了一种基于统计特性的邻域粗糙集信息基因选择方法。该算法从基因表达谱特征选择模型入手,首先,分析特征基因的度量方法,引入相对信息熵从而建立新的评价准则衡量特征基因的重要度;其次,在SVM_FRE算法中引入构建特征相关性计算模型,综合考虑特征基因之间的相关性对分类样本的联合贡献度;然后,采用邻域粗糙集对候选特征基因子集进行寻优,并分析不同的邻域半径对寻优结果的影响;最后,采用不同的分类器对优化的特征基因子集进行分类。通过实验证明,该方法能克服传统分类算法精度不高的缺陷,且能在较少的特征基因下取得较高的分类精度。