基于图乘运算的多源异构数据图融合和链接预测方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:meyxiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术在推送企业信息、提升决策效率等方面发挥着重要作用。在实际应用中,经常需要挖掘不同来源的实体之间的关联关系。不同实体对应的数据在存储结构上存在差别,称之为异构数据。多源异构数据网络信息包含数据节点的属性信息、单类网络内部的拓扑结构信息以及异构网络拓扑结构信息。当前提出的预测方法通常只利用了其中部分信息,并且局限于二分网络。为了将三类信息融合进预测过程中,提出了基于图乘运算的多源异构数据链接预测框架。基于图乘运算的多源异构数据预测链接框架利用网络的节点属性信息生成节点间的相似性,并利用单类网络内部的拓扑结构信息将节点间相似性扩展到高阶相似性。之后将带权k分图利用图乘运算融合为带权融合单部图,将多源异构数据之间的链接预测问题转化为单部图中的分类问题。融合节点间的链接体现了融合前异构网络的拓扑结构信息,可以利用该信息生成融合节点的特征向量并进行预测。此外,该框架在理论上适用于三阶及三阶以上网络的链接预测问题。对于PU问题的数据,提出了基于孤立森林的标签传播算法,可以快速对PU问题中的未知链接进行分类。为评估该预测框架,选用Drug-Target数据集测试在PU问题上的效果,选用cora数据集测试在PNU问题上的效果。实验结果表明与传统的预测方法相比,该预测框架在PU和PNU问题数据集上都拥有不错的预测效果。基于孤立森林的标签传播算法的实验表明,该算法在PU问题数据集上有很快的训练及预测速度,并能够保证较高的召回率。
其他文献
随着移动互联网技术的飞速发展和智能终端设备的更新迭代,WIFI的应用与日常生活紧密相连,公共场合需要通过网络认证的方式保证用户连接的私密性和安全性,而在现行的网络认证方案中,Portal认证方案因搭建快捷、维护成本低,应用最为普遍,但其对无线终端设备的要求高,因而在无线终端设备的测试和开发过程中,需要一套Portal认证模拟系统还原Portal认证的基本场景以及一些特殊场景。本文以横向合作项目“基
学位
分析程序是否存在恶意行为是保护用户信息安全的有效措施之一。基于指令序列的恶意行为分析技术作为目前主流的恶意行为检测手段,它通过收集程序运行时的指令控制流信息,还原程序真实的运行轨迹,识别程序的行为特征。然而,指令流采集和还原执行轨迹仍存在以下主要问题:一方面,高性能开销的指令流采集系统与真实用户环境中程序运行存在巨大的时长差,易被恶意程序发现并产生逃逸行为;另一方面,记录过程采集的无效数据给还原过
学位
随着人工智能和计算机视觉技术的发展,工业生产的自动化程度也逐步提高。非接触式的自动化测量技术是工业生产中的重要内容,利用计算机视觉技术可以解决自动化测量中的关键问题:目标识别和姿态估计。近年来,基于深度学习的方法不断发展,逐渐取代了人工提取特征的方法。点云数据是三维数据的重要表示方式之一,相比于二维图像,点云数据包含了物体深度等更多信息,它的表达方式也相对简单,可以作为深度学习模型的输入。本论文基
学位
自古以来,投票就是一种体现民主公正的存在形式。随着当代社会的发展和技术的进步,投票采用的形式也从举手计数转变为线上投票计数。然而,当今线上投票系统大多依赖于一个中心化的服务器,普通用户无法得知自己所投出的票是否被后台管理员或利益相关者恶意篡改,即无法验证票据信息的真伪,做不到信息的公正公开。随着区块链技术逐渐进入人们的视野,人们意识到区块链技术具有不可篡改、去中心化、可追溯等优点,数据一旦存入账本
学位
球囊霉素相关土壤蛋白(GRSP)是丛枝菌根真菌产生的一种糖蛋白物质,其性质稳定,不溶于水且耐高温。GRSP在土壤团聚体形成中起重要作用,可以提高土壤团聚体的水稳定性;GRSP作为一种有机质可以为土壤提供大量碳源;同时也能够吸附固定土壤中的重金属元素,对重金属污染土壤生物修复有重要作用。然而,基于目前的提取纯化方法得到的球囊霉素纯度不高,难以用于其结构及性质的分析。本研究采用柠檬酸钠提取法分别从土壤
学位
文字是人类最伟大的发明之一,它承载着丰富的语义信息,在人们的生活中扮演着举足轻重的角色。随着移动互联网技术的快速发展与电子设备的普及,人们进入了一个大数据时代,互联网上充斥着海量的视频数据。视频中的文字信息往往能够更加准确的表达视频的关键内容,文字对于图像处理和视频分析起着至关重要的作用,因此如何准确、高效的从视频数据中提取和分析文字信息成为了近年来人们关注的焦点。自然场景文本相对扫描文档更具有挑
学位
目的:自2009年实施新医改以来,国家大力发展农村地区医疗卫生服务体系,促进乡镇卫生院的建设和能力的提高。在这一背景下,乡镇卫生院的效率评价对改善乡镇卫生院建设和服务具有重要意义。本研究通过对2017年湖北不同功能区域的乡镇卫生院的基本情况和运行效率进行分析,了解湖北省各功能区乡镇卫生院的整体水平和运行效率,分析乡镇卫生院可能存在的问题,为进一步提高不同功能区乡镇卫生院运行效率提供科学依据。方法:
学位
随着科学技术的发展,越来越多的新技术呈现在各领域。同时,产生了大量可供挖掘的文本数据以及待发现的新词汇。在不同的专业领域,专业领域词库的扩充是一项待完善的工作。因而,对特定领域的新词进行准确的挖掘与识别成为了一项待开展的重要研究,因此领域新词发现对自然语言处理提出了更高的要求。本文采用一种无监督的方式,提出了一种DTopWordS-SS(DTopWordS Combining Statistics
学位
随着国内高校信息化科研工作的进行,海量的科研文档得以积累。这些文档中蕴含着丰富的科研信息,目前并未得到有效利用。随着科研文档规模的日益增大,科研工作者若想从中快速准确地获取所需科研信息变得愈发困难。针对上述问题,本文构建了一个科研文档检索与推荐系统,从而帮助科研工作者便利高效地获取科研文档信息。构建该系统的核心工作是将科研文档转化为计算机理解的形式。为此,本文广泛调研了国内外基于机器学习的文本表示
学位
课程论坛是在线开放课程师生交互的重要渠道,相关的测量与评估也成为在线教育数据分析研究的热点。目前用于课程评估的论坛分析常规指标包括发帖总数、参与总人数等。作者通过对某在线学习平台论坛数据的初步分析发现:不但不同学科的课程论坛交互指标的绝对数值存在较大的差异,而且相同学科内不同课程的论坛交互模式也有所不同。因此,在针对课程论坛的教学分析研究工作中,有必要开展相同学科类型课程的归一化相对分析、识别不同
学位