基于机器学习的唾液分泌蛋白识别研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:aileensa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文采用机器学习方法,针对生物信息学领域中的唾液分泌蛋白识别问题,做了较为深入而细致的研究。主要工作如下:1.提出了凝结核聚类算法,利用支持向量聚类算法(SVC)的思想,获得高维特征空间中的样本分布,提取样本子集形成各个聚类的凝结核,然后再对剩余样本进行聚类或分类处理。根据策略的不同组合,实现了三种凝结核聚类算法——SVC-KM、CNC、GCNC。实验结果表明,新方法在运行时间、处理数据能力、鲁棒性等方面,都要优于原始算法。2.提出了一种基于局部样本的特征选择算法,对于每个样本,只使用与其距离最近的少数样本做信息特征选择。采用选出的局部样本,结合t检验、置换t检验和最大相关最小冗余方法等三种过滤式特征选择算法,对六种癌症的基因表达数据进行分析,实验结果表明,在采用局部样本后,t检验、置换t检验和最大相关最小冗余方法所选出的特征基因明显优于原方法。3.提出了唾液分泌蛋白识别的框架,结合蛋白质家族信息,构造了非唾液分泌蛋白集合,并采用基于支持向量机的递归特征消去算法选出与唾液分泌蛋白相关的特征属性,最后构建了唾液分泌蛋白的识别模型。通过该模型识别出的蛋白将是人类疾病的唾液诊断标志物的有力候选,这将推动唾液诊断的进一步发展。最后,本文将改进的聚类算法和特征选择方法结合到唾液分泌蛋白识别的过程中,对训练集的选取和特征选择过程进行了优化,实验结果表明模型的准确率有了明显的升高。
其他文献
结合陶瓷轴承电主轴单元的研制实践,高速主轴用热压氮化硅陶瓷球轴承的结构优化设计和轴承予负荷的确定进行了研究,探讨了电主轴单元的结构布局形式的选择,并对电主轴进行了
在大型会展综合体建设中运用绿色机电施工技术已成为趋势。以上海国家会展中心项目为例,介绍了大口径双层螺旋保温风管施工、场馆内气流组织预测、轻型装配式支吊架和狭小空
将齐五次系统经变换化为广义齐三次系统,讨论了该系统的二、三、四阶鞍点量与参数A的关系.以便于进一步讨论齐五次系统鞍点量上界问题.
吸烟作为肺癌的主要危险因素之一,影响肺癌患者的生存时间和生活质量,烟草中的尼古丁及其代谢产物能通过促进细胞增殖、血管生成、浸润,上皮细胞间质样转化及促肿瘤生长相关
经过多年的发展,四川省射洪县在经济、社会、生态建设等各个方面都取得了良好的成绩,特别是在发展循环经济型现代农业方面取得了明显的成效。但是由于机制不健全,循环农业还
有清一代,桐城以文派著称于世,世人皆知桐城文派,而不知桐城非仅有文派,理学、诗、考据等亦曾惊鸿一现于世。究其人物传承,皆出于文化世家。桐城世家的文化底蕴深厚,各世家家
离散数学是我国现代远程教育计算机专业的专业基础课,由于这门课程涉及内容比较繁杂,理论大多比较抽象枯燥,难以理解,再加上教材设计不适合自学,致使学生学习兴趣不大,学习效
<正>《中共贵州省委关于制定贵州省国民经济和社会发展第十二个五年规划的建议》明确提出要大力实施工业强省和城镇化带动两大战略,《建议》指出,要创新城镇管理体制和工作机