基于生物语义数据的图模型构建与分析

来源 :天津大学 | 被引量 : 0次 | 上传用户:chenfengling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
化学和生物领域公开数据的快速增长,为人们在药物研发领域对于大数据的挖掘提供了更多的机会。这些数据集无论在规模,还是复杂度方面都在不断增大,这使得对这些数据的表示和存储更加困难。将数据使用Resource Description Framework(RDF)格式表示为Linked Data,可以促进数据集与其他web资源的整合。RDF可以将数据变成机器可读的形式,并且可以使用扩展的词汇表达更多的信息。将这些数据进行集成,并且对这些集成的数据进行挖掘,可以使人们对药物的复杂特性进行分析。基于生物活性数据集的药物网络分析,结合复杂网络分析进行药物发现,是现在药物研发技术的重要趋势。对于大规模数据的处理和图分析,异步并行的GraphLab框架表现出良好的性能。可以在分布式的环境下,对大规模数据进行图模型的构建和分析。本文提出了基于Graph Lab的生物语义数据集的分布式图模型构建系统。在上述系统中,将基于属性共现的节点相似度算法应用于欧洲生物信息研究所研发出的ChEMBL数据库,构建出基于“药物天然产物—活性”的二部图,并应用GraphLab框架,计算天然产物基于活性特征的相似度。并且对相似度较高的天然产物进行活性的推荐,从而指导天然产物的活性探测试验,应用于药物研发早期的药物靶标发现与选择。
其他文献
语言是人类特有的功能,是自然界中人类区别于其他生物的特殊能力。随着世界一体化的到来,第二语言学习者逐年增加。计算机辅助发音训练技术应运而生,它不仅可以缓解语言教师
当前用户在多个终端进行办公和娱乐已经成为一种普遍的现象。根据应用场景的不同,用户可以选择不同的终端进行使用。当用户使用不同的终端时,将会面临在不同终端进行切换的问
车流量检测技术是智能交通系统系列技术中的关键基础,基于视频图像处理技术的车流量检测技术的研究已成为该领域的研究热点。视频检测技术日益成为最具优势、最有发展潜力的检
由于期货市场的行情受到政治、经济等多方面因素的影响,其内部规律非常复杂,传统的预测技术的预测效果并不理想,而神经网络具有优良的非线性特性,特别适用于处理高度非线性系
长距离无线Mesh网络非常适合部署在偏远或者人口稀疏的地域,用于宽带网络接入。但基于IEEE 802.11n的长距离无线Mesh网络,在长距离链路传输中,由于原有的停等传输方式的限制
随着Internet互连网络的飞速发展,流媒体技术已经被广泛应用。流媒体的访问流量在Internet的访问中占据了越来越重要的地位。在有限的资源条件下,如何满足快速增长的用户需求
TAC竞赛是专为交易性Agent之间的竞争而创造的平台,Agent通过游戏服务器提供的市场进行交易并且实现竞争目标。竞赛的目的不仅仅是为了人工智能技术的运用,更主要的是要将人工
随着信息化的发展和深入,许多企业投入大量的资金在企业信息化的发展和改革中。企业的信息化系统在生产和工作中也为企业带来了极大的便利和较高的效率。但是随着各种信息系
在高可用计算机的研究当中,如何保证系统的可用性和应用可靠性一直是需要首先考虑的问题。机群以其高性价比和高扩展性成为构造高性能计算机的一种主要方法,而节点间松散耦合
随着信息技术的广泛发展,中小企业对电子商务系统的需求越来越大,可是电子商务系统的开发效率和规范性并不能满足企业用户的需求。由于技术是以市场为导向的,所以本课题主要