多流异构图卷积网络及其在文本分类中的应用

来源 :河北经贸大学 | 被引量 : 0次 | 上传用户:xiaochouyu005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,越来越多的人开始倾向于在互联网上获取信息与发布信息。同时,随着全球网民数量的快速增长,互联网生产的数据也是每日剧增。一方面,海量信息造成的信息过载危害正在严重影响人们的日常生活。另一方面,在互联网社交平台中流传着大量的未经证实的谣言,这些谣言给人们的工作和生活带来巨大困扰。文本数据作为一种常见的网络数据,如何高效地对文本数据进行分类并检测其可信度一直是一个热门的研究方向。文本分类模型作为一种处理文本数据的模型有着广泛的应用,比如文档分类和谣言检测。最近,图卷积网络被广泛应用于文本分类,然而目前流行的基于图卷积网络的文本分类模型在语料库信息的利用上存在局限性,比如忽略了语料库中的统计信息。本文从如何高效地利用语料库信息这个角度进行研究,提出了两种用于文本分类的多流异构图卷积网络模型,可分别应用于文档分类和谣言检测。本文的主要工作如下:(1)提出了一种基于代表性单词文档的多流异构图卷积网络模型(MHGCN-RWD)。该模型根据语料库中单词的分布信息,挖掘出一种能够代表某一类文档的代表性单词,并以文档的形式将代表性单词加入大型文档异构图中,这种异构图包含了语料库中文档的全局语义信息与单词的全局分布信息。本文从不同的文档范围中筛选出多组代表性单词并构造出多组代表性单词文档,分别与语料库中的原始文档一起构建出多个代表性单词文档异构图,用于训练MHGCN-RWD模型。最后,通过MHGCN-RWD模型将多个异构图中的文档特征融合,用于文档分类。本文将MHGCN-RWD模型应用到五个文本分类数据集上进行实验,实验结果显示MHGCN-RWD模型在大部分的数据集上已经达到目前最优的分类精度。(2)提出了一种基于推文-回应文档的多流异构图卷积网络模型(MHGCN-TRD)。该模型根据回应的结构顺序挖掘推文与回应之间的结构信息,同时根据语料库中推文之间的主题相似度挖掘推文的主题信息,并将这两种信息加入大型文档异构图中用于模型的训练。本文首先根据回应的结构构造出多组不同级别的推文-回应文档,然后从推文中提取主题词并构造成主题词文档。接着,用多组推文-回应文档分别与主题词文档和推文文档一同构造出多个推文-回应文档异构图,用于训练MHGCN-TRD模型。最后,通过MHGCN-TRD模型融合多个异构图中的推文特征,用于检测推文是否为谣言。本文将MHGCN-TRD模型应用到具有主题信息的Pheme数据集上进行实验,实验结果显示MHGCN-TRD模型在Pheme数据集上的检测精度已经超过目前最流行的谣言检测模型。
其他文献
笔者在此次翻译实践中所选取的文本《工业革命时期的方言形成与变化:十九世纪的英国英语方言》(Dialect formation and dialect change in the Industrial Revolution:British vernacular English in the nineteenth century)为社会语言学接触与变异领域的专业学术论文,该论文由英国约克大学教授,社会
学位
研究背景和目的伤口愈合是一个复杂的过程,许多机制尚不清楚。多种因素,如糖尿病、感染等会导致伤口不愈,甚至是截肢、死亡等情况。因此,发现和阐明伤口愈合过程中的新靶标和作用机制具有重要意义。本课题旨在研究脂肪因子Meteorin-like(Metrnl)在伤口愈合中的作用和血管新生的相关机制,为临床难愈性伤口的治疗提供新靶标。研究方法1、检测皮肤伤口组织中Metrnl的m RNA表达随时间的变化。比较
学位
随着集成电路规模越来越大,功能越来越复杂,集成电路的功能验证工作面临着越来越大的挑战。而集成电路系统设计的好坏直接影响到验证的复杂度和进程。本文基于一款MAC协处理器芯片中流量控制模块的设计及验证,对数字集成电路芯片设计流程中从系统设计到仿真验证过程中的关键技术进行了研究。首先,简要介绍了数字集成电路设计及验证的指导原则,并重点探讨了基于仿真的功能验证的验证流程及其验证平台的构成要素。其次,结合本
学位
近年来科技和经济的蓬勃发展,使得人们可以利用各种新媒介获取大量信息,导致读者的阅读习惯发生了转变。电子媒介相较于纸质媒介呈现出较多优势,纸质书的主导地位受到了前所未有的冲击。只借助“普通”的纸质书,很难再恢复读者对书籍的重视,因此,需要在个人与书之间建立更紧密的联系,更符合大众现代的阅读方式,使读者更有效的获取信息。现如今,书籍与读者之间的信息传递,不仅来自我们最初观察到的视觉图像,也来自阅读过程
学位
建筑是凝固的音乐,音乐是流动的建筑。随着生活水平的进一步提升,人们对建筑的外观与布局产生了更大期盼。但随之而来的就是建筑抄袭的问题也越来越突出,实践中针对建筑物、建筑设计图纸以及建筑模型的抄袭及不正当利用现象时有发生,建筑作品著作权保护越发引起关注。我国著作权法将建筑作品作为一种单独的作品类型给予保护,使之与美术、图形、模型等作品相区分。但是,我国著作权法对建筑作品的规定尚有不足,主要体现在建筑作
学位
诸如气候变暖、空气污染、水污染等环境问题日益严峻,催生出以节约资源、提高能效、防治污染等为目标的绿色技术。无论是全世界节能减排“绿色革命”的大趋势,还是我国“碳达峰”、“碳中和”的重大战略决策,都给绿色技术的大发展带来了前所未有的机遇,同时也为绿色技术专利保护提出了挑战。传统专利制度对绿色技术的保护,与生态环境领域的产业特征存在一定的冲突,绿色技术专利强制许可则被认为是解决这种冲突,推动绿色技术专
学位
爱德华·霍珀作为美国20世纪重要的现实主义画家,有着独特的绘画语言与表现形式,描绘了许多具有美国时代特征的图像。20世纪的美国正处于经济萧条时期,生活发生着巨大的改变,人们充满着异化情绪,但霍珀并没有描绘苦难,也没有描绘社会的大事件,而是把画笔伸向了美国人民,以独特的视角呈现美国人民的生活,描绘美国空旷的土地、房屋建筑、房间里孤独的人、旅馆、加油站、餐厅等,展现了这个时代人们最平凡真切的生活状态。
学位
企业配置金融资产有可能是出于防范现金流断裂、对冲风险、拓展融资渠道等预防性储蓄动机,也有可能是出于套取更多利润等投机性动机。正确认识企业金融化的动机和效果,充分发挥金融资产配置良性作用,对于企业经营具有重要意义。行为经济学指出,文化等非正式制度会对市场主体的行为决策产生重要影响。儒家文化作为中国传统文化的主流,蕴含了中国哲学思想中最重要的内涵,塑造着中国企业家的精神,是中国影响最为深远的非正式制度
学位
随着通信技术的不断发展,越来越多的用户要求随时随地提供网络服务,能满足此要求的卫星移动通信系统已在国外的军用和民用领域广泛应用。星地融合宽带通信网兼有卫星网和地面网的互补优势,能实现更大的覆盖范围。信关站是连接卫星网与地面网络的桥梁,本文研究工作具有较大应用价值。本文依托“新一代星地融合宽带通信网测试与仿真”项目,介绍网络处理器及其硬件平台和概述IPv6协议。重点研究演进分组核心网EPC网络架构和
学位
本翻译实践报告基于对《中华农耕文化漫谈》第四章第一节和第四节内容翻译与分析。第四章主要介绍了中国源远流长的稻作文化,而第一节是关于“水稻的驯化及其对中华文化的贡献”,第四节是关于“麋鹿和原始稻作及中华文化”两部分的内容。对这部分的英译,有助于讲好中国的稻作文化故事,为传播中国传统农耕文化尽绵薄之力。本次翻译所选源文本属于科普类信息型文本,就内容而言,它包含了大量的科技术语和文化负载词,并且引用了许
学位