【摘 要】
:
蛋白质二级结构预测是生物信息学上的一个关键问题.近年来,由于深度学习的成功,本文将深度学习应用到这一问题上面,设计了一种多方面的自注意力机制的深度卷积循环网络(Multi-Aspect Self-Attentive Network,MASAN)来进行蛋白质二级结构的预测.首先,本文使用了CNN来处理氨基酸序列,提取氨基酸序列的局部特征;在此基础上,利用双向循环神经网络(Bi-GRU)处理整个氨基酸
【机 构】
:
中国科学技术大学计算机科学与技术学院,安徽合肥230027
【出 处】
:
第六届中国计算机学会大数据学术会议
论文部分内容阅读
蛋白质二级结构预测是生物信息学上的一个关键问题.近年来,由于深度学习的成功,本文将深度学习应用到这一问题上面,设计了一种多方面的自注意力机制的深度卷积循环网络(Multi-Aspect Self-Attentive Network,MASAN)来进行蛋白质二级结构的预测.首先,本文使用了CNN来处理氨基酸序列,提取氨基酸序列的局部特征;在此基础上,利用双向循环神经网络(Bi-GRU)处理整个氨基酸序列,从而获取整个氨基酸序列的全局特征,然后本文利用自注意力机制(Self–Attention mechanism)来获取氨基酸序列中对蛋白质二级结构表示有重要影响的氨基酸.接下来利用残差网络整合获取到的所有信息,最后利用分类层进行分类.本文在公开的蛋白质数据集CullPDB,CB513进行了实验.实验结果展示了本文模型的优越性,与对比模型的结果相比,在准确率上有0.5%的提升.
其他文献
心电图是检测心脏疾病的重要手段之一,然而多种异常心电信号之间存在较大的相似性使得心电分类的准确性成为研究的焦点.传统的机器学习方法和当前的深度学习方法能较大的提升异常心电的分类准确率,但存在训练时间长、结构不灵活,难以实时在线学习更新等不足.基于此,提出一种基于宽度学习系统(BroadLearning System,BLS)的异常心电分类方法,该方法能够实时在线调整增强节点的个数并学习新样本的特征
This paper extends our previous DESIQUE [1] algorithm to a local-and-global way(LaG-DESIQUE)to blindly measure image quality without training on human opinion scores.The local DESIQUE extracts block-b
在语义结构查询问题中,由于语义结构的特殊性及庞大数据集的存在,传统的点查询和频繁子图查询,无法简洁直观的描述百万节点的大图,并衡量查询到的语义结构的重要性.针对该问题,VoG算法利用子图分割并最大化对特殊结构进行匹配,但存在查询时间长,错误率较高等问题.因此提出了一种新算法,解决了传统算法的缺陷.所提算法的具体思路为:1)利用ApxGreedy算法对输入图进行聚集处理;2)通过聚集之后的超点内部与
随着全国司法机关智能化建设和信息化建设应用的深入推进,积累了海量的司法文书,这为开展司法大数据应用和司法智能服务提供了基础.通过司法文书的相似性分析,实现类案推送,为司法人员提供智能辅助办案服务,可以显著提高办案的质量和效率.本文提出了一种语义驱动的方法来学习和分类司法文书.首先提出并构建了面向司法领域的领域知识本体以清晰表达文档级语义,然后在领域本体基础之上对司法文档进行相应的领域知识抽取.接着
In recent years,as an emerging technology,cloud computing has pro-vided us with convenient services,and power consumption on issues have be-come increasingly prominent.Virtual machine live migration t
随着大数据时代的来临,人类社会产生了大量的数据,这些数据反映了人们的生活习惯、社会规律以及自然规律.数据流作为大数据最重要的表现形式之一,应用的范围非常广泛.在实际的数据流应用领域中,连续数据点组成的波段往往更具领域价值,因为单个数据点仅仅表示了值的变化,而波段则是在宏观层次上展示了丰富的语义,因此以模式(波段)为粒度来表达数据流显得尤为重要.虽然各个领域的数据流表现复杂,但是都有一定规律可循,如
智能电网系统一直以来就是智慧城市中的紧要一环.通过对智能电网系统进行分析,可以创造出更加便利的用电服务.负荷曲线聚类是智能电网分析中的基础一环,大量后续的应用如负荷预测,用户画像构建都可以在负荷曲线聚类的基础上得以优化.本文结合最新的语音处理模型,提出一种基于卷积循环神经网络和快速傅里叶变换的方法去提取电网负荷聚类特征,同时借助三元组损失函数使该方法可以仅依靠部分标签类型的数据进行训练,进而对未出
在图数据库中,现有的基于图模拟的匹配问题主要集中在静态图的图模拟上,但是,现实生活中的许多场景,如社交网络、交通系统网络等,需要采用带有时间变化标签的时序图进行建模,因此在时序图中解决图模拟问题是必要的.由于时序图中包含的信息量相较于静态图更为庞大,并且结构更为复杂,使现有的静态图中的图模拟方法不能直接适用于时序图中.为此本文首次提出时序图的图模拟匹配定义——时序边界模拟.首先,进行模式图分割,将
随着智能电视的普及,节目付费成为电视生产企业或视频内容企业最重要的利润来源之一.挖掘潜在付费用户,促使用户付费购买增值服务越来越成为企业亟待解决的问题.本文首先基于国内最大的电视厂家之一的海信公司日志数据的特点,提出了对日志信息扩展、特征衍生以及特征提取的解决方案.结合深度模型在高阶抽象特征学习上的优势以及线性模型在低阶特征学习上的优势,提出了Simplified Wide&Deep(SWD)模型
Weather classification is getting more and more attractive because it has many potential applications,such as visual systems and intelligent transportation,especially in transportation.However,the res