论文部分内容阅读
本文采用机器学习方法,针对生物信息学领域中的唾液分泌蛋白识别问题,做了较为深入而细致的研究。主要工作如下:1.提出了凝结核聚类算法,利用支持向量聚类算法(SVC)的思想,获得高维特征空间中的样本分布,提取样本子集形成各个聚类的凝结核,然后再对剩余样本进行聚类或分类处理。根据策略的不同组合,实现了三种凝结核聚类算法——SVC-KM、CNC、GCNC。实验结果表明,新方法在运行时间、处理数据能力、鲁棒性等方面,都要优于原始算法。2.提出了一种基于局部样本的特征选择算法,对于每个样本,只使用与其距离最近的少数样本做信息特征选择。采用选出的局部样本,结合t检验、置换t检验和最大相关最小冗余方法等三种过滤式特征选择算法,对六种癌症的基因表达数据进行分析,实验结果表明,在采用局部样本后,t检验、置换t检验和最大相关最小冗余方法所选出的特征基因明显优于原方法。3.提出了唾液分泌蛋白识别的框架,结合蛋白质家族信息,构造了非唾液分泌蛋白集合,并采用基于支持向量机的递归特征消去算法选出与唾液分泌蛋白相关的特征属性,最后构建了唾液分泌蛋白的识别模型。通过该模型识别出的蛋白将是人类疾病的唾液诊断标志物的有力候选,这将推动唾液诊断的进一步发展。最后,本文将改进的聚类算法和特征选择方法结合到唾液分泌蛋白识别的过程中,对训练集的选取和特征选择过程进行了优化,实验结果表明模型的准确率有了明显的升高。