论文部分内容阅读
通过研究蛋白质颗粒的微观三维结构,可以识别其具有的功能。蛋白质颗粒三维结构的获取主要有三种方法:X射线衍射法,核磁共振法,三维电镜重构法。本文研究的背景是冷冻电镜三维重构法。该算法首先需要挑选大量的二维投影样本,然后利用一定的三维重构技术,重构出其三维空间结构。随着重构精度逐渐要求到原子级水平,待挑选的蛋白质颗粒也达到了上万甚至上百万的水平,于是人工挑选就成为了制约该技术发展的一个主要瓶颈。本文的主要工作,就是从大量的冷冻电镜蛋白质颗粒投影图像中,根据一定的颗粒模板图像,挑选出类似的所有颗粒图像,并标记出其在图像中的位置,以便为接下来的三维重构工作提供必要、充足的样本图像。
随着计算机视觉技术的发展,已经有很多模式识别算法被应用到了蛋白质颗粒挑选领域,主要的方法是基于模板匹配和基于特征学习的方法。但是,随着蛋白质颗粒类型的变化和需要挑选颗粒数量的增加,许多算法都出现了一定的局限性。因此,需要针对蛋白质颗粒挑选领域的特点,研究更加有效的算法。本文以对颗粒类型无关的模板匹配算法和基于小样本学习和结构风险最小化原则的支持向量机算法为理论基础,对开发蛋白质颗粒挑选算法进行了深入的研究。
本文提出的模板匹配和支持向量机相结合算法是一种适应性强,挑选速度快且挑选正确率相对较高的一种算法。该算法首先根据手工挑选的少许颗粒,利用模板匹配技术,在待识别图像中确定颗粒的初步位置。接下来根据正负样本颗粒训练支持向量机分类器,通过调整参数,获得最佳的识别分类器。然后使用此分类器对剩余的图像进行自动颗粒检测,最后确定所有图像中颗粒的位置。在Window平台上,利用MATLAB程序的强大功能对算法进行了仿真实验;然后,统计了该软件挑选出的颗粒质量,并和标准数据库中的一些软件挑选效果进行了对比。结果显示,该软件不但提高了一定的挑选效率和质量,而且挑选速度更快,使用范围更广。最后根据确定的算法,利用一些工具箱和软件包,开发出了一款可用于蛋白质颗粒挑选的软件。