机器学习方法学创新研究及其在SSRF生物医学数据理解中的应用

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:fenggge886
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
上海同步辐射光源(Shanghai Synchrotron Radiation Facility,SSRF)是一台高性能的第三代同步辐射光源,是我国迄今为止最大的科学研究装置和公共实验平台。利用上海同步辐射装置的高亮度、短波长的同步辐射光在空间分辨上的优势,将可以进行许多前沿学科的探索,尤其是生命科学领域。利用BL17U—生物大分子晶体学光束线站,生物学家能获得生物大分子的三维结构,进而研究其结构与功能之间的关系;而利用BLl3W1一X射线成像及生物医学应用光束线站,医学家则可以揭示活体肿瘤和脑血管病的发生和发展机制,为发展重大疾病的早期诊断与治疗提供关键理论基础和技术支撑。   目前利用上海光源已经产生了大量的蛋白质和医学图像数据,单纯地利用传统的生物和医学实验方法,或者根据专家经验将很难快速且全面的处理如此多的数据,从而必然制约了上海光源在生命科学领域应用的快速发展。在这种情况下,利用计算机自动的理解这些数据的生物信息学和医学图像处理应运而生。   本文中讨论利用机器学习的方法,对这些蛋白质结构和医学图像数据进行分类、检索以及相关特性的预测。旨在运用机器学习的理论和方法来研究蛋白质结构与功能特性,以及医学影像和疾病特点之间的内在联系,在已有数据的基础之上发现相应的规律和知识并进而用来进一步指导与解释新产生的蛋白质和医学影像,加速对生命本质特征的认识。本论文在机器学习及生物信息学、医学图像理解理论与方法上进行了深入的研究与探索。分别提出了新颖的医学图像检索,基于医学图像的组织分类,蛋白质数据库检索,以及蛋白质折叠类心预测算法。相关成果发表于顶级期刊Pattern Recognition,BMCBioinformatics和IIEEE Transactions on Medical Imaging等期刊上。论文的主要内容和创新点如下:   1.基于内容的医学图像检索指的是,给出一幅医学图像,系统根据图像的内容相似度,从数据库中检索出若干相似的医学图像。这对医学研究人员和医生判断医学图像所隐含的疾病信息很有帮助。基于“特征袋”这一图像表达模型,对医学图像的局部特征量化分配问题进行了创新研究,并应用于医学图像检索。建立了局部特征到量化的视觉词典的贡献函数,并基于二次规划方法,提出了一种新的分配侧率QP分类。进一步地,对视觉词的加权进行了研究,提出了为每个视觉词构建弱分类器,再通过AdaBoost算法学习每个视觉词权值的算法。   2.医学图像中的组织进行自动分类,对医疗诊断和研究有着重要的意义。我们提出了利用基于“特征袋”方法的组织分类方法。“特征袋”方法最重要的两个环节就是视觉词典的学习,以及视觉词的加权。虽然目前针对这两个问题有很多研究,但是都是相互独立的。而实际上他们存在着密切的联系。我们提出了视觉词典及其加权矢量的联合学习算法,在一个目标函数中统一这两个参数,并且在算法中迭代地优化。   3.蛋白质数据库检索,或者蛋白质的最近邻分类,指的是给出一个查询蛋白质,从数据库中找出若干性质(如折叠类型)相同的蛋白质。这以过程中关键的步骤就是如何定义“相似度”的问题。传统的相似测度只考虑了两个蛋白质,而最近提出的上下文敏感的相似测度则可以同时考虑数据库中的其他样本。我们通过定义“参考集合”来考察到底数据库中的哪些样本会起到影响的作用。进而提出了最短路径传播算法,指出两个蛋白质之间的最短路径上的蛋白质起到的作用最大。   4.目前为止,所有的上下文相关的相似度学习都未用到数据库中蛋白质的类别标号(如折叠类型的标号)。这阻碍了这一领域的发展。我们创造性的提出了利用蛋白质类别标号的监督式上下文敏感的相似度学习方法。利用数据库中的同类蛋白质对(相关的),以及异类蛋白质对(无关的),我们计算他们的上下文相似度矢量,来训练一个SVM模型来对一对未知的蛋白质对的相似度进行规整,得到新的相似度。而基于新的相似度,我们又重新确定他们的上下文。如此,我们提出了新的上下文敏感相似度计算方法。   5.最后,我们利用我们提出的机器学习的方法,对上海光源产生的医学图像和蛋白质结构进行了检索和分析的示例。对BLl3W1一X射线成像及生物医学应用光束线站城乡形成的肺癌图像,进行了数据库检索试验。对BL17U-生物大分子晶体学光束线站产生的蛋白质结构数据3EOP,进行了数据库检索和折叠类型预测的实验。实验结果证明我们提出的算法能有效应用于SSFR数据的分析。
其他文献
光滑粒子流体动力学方法(Smoothed ParticleHydrodynamics,SPH)是一种基于拉格朗日思想的无网格粒子法,因其在自由表面、运动交界面、变形边界等复杂流体动力问题的数值模拟中优
二氧化钒(VO2)是一种电子强关联体系的金属氧化物材料,它具有一阶可逆相变特性。在临界温度68℃附近,VO2发生金属-绝缘相变(MIT),由低温单斜相突变到高温四方相,相变前后电阻突变可高达4~5个量级,同时VO2在相变前后对红外光的透射具有调制作用,即由低温高透性变为高温高反性。正是由于这种接近室温的电学和光学突变性质,VO2吸引了人们的广泛关注,使其在智能窗、光电开光、光电存储、红外激光辐射防
离子迁移谱检测技术(ion mobility spectrometry,IMS)是上个世纪70年代末80年代初发展起来的一种痕量化学物质分析检测技术。其原理是将不同物质离子化后注入到均匀电场中,精确
中国散裂中子源(CSNS)是生命科学、材料科学和核物理等诸多学科的研究平台。加速器驱动次临界系统(ADS)是嬗变核废料的有效途径,也是下一代核能开发采用的主要技术。本论文以C
公元1127年1月,来自北方的女真族渡过黄河,攻陷北宋(960-1127)帝都汴梁,掳走徽宗、钦宗二帝,并皇族、后妃、官吏及超过十万平民。这一事变,史称"靖康之变",不仅王朝覆灭,也造成民
本论文从理论、模拟和实验三方面研究了HIRFL-CSRm离子束的电子冷却累积过程。   在没有内靶实验装置的电子冷却储存环中,离子束的冷却过程,是离子在电子冷却效应和以束内散
党章是我们党为保证全党在政治上、思想上的一致和组织上、行动上的统一所制定的章程。作为一名共产党员就要把学习贯彻党章作为自己的终身追求,以这次保持共产党员先进性教
茅盾对《圣经》和犹太宗教的关注,对他的文学批评和写作有重要的影响。一方面,他鼓吹自然主义,追求真实地再现生活,并接受了其中包含的进化论和科学主义;另一方面,茅盾也承认
裂原激活蛋白激酶(MAPK)级联系统负责把接受自胞外或胞内的信号进一步传递和放大而最终作用于特异的转录因子,从而启动或调控基因的表达。MAPK信号级联系统在细胞分裂、分化
随着核能技术的发展,中子物理学理论方法、数值模拟和实验技术得到了迅速的发展,特别是中子输运过程的模拟方法与软件已发展到较为成熟的阶段。然而,不同功能软件之间缺乏有效的