【摘 要】
:
随着移动互联网的飞速发展,每天在网络中会产生无数的短文本数据,它们会以新闻标题、社交媒体信息、短信息等多种形式广泛存在。短文本分类是自然语言处理中的一项基础任务,可以应用在非常多的下游任务中,如舆情控制、情感分析、新闻分类等,这些短文本数据具有十分重要的经济价值与学术价值。最近,图卷积网络技术地快速发展引起了广泛关注,它已被成功地应用于各种领域,例如网络分析和自然语言处理等。图卷积网络是一种简单且
论文部分内容阅读
随着移动互联网的飞速发展,每天在网络中会产生无数的短文本数据,它们会以新闻标题、社交媒体信息、短信息等多种形式广泛存在。短文本分类是自然语言处理中的一项基础任务,可以应用在非常多的下游任务中,如舆情控制、情感分析、新闻分类等,这些短文本数据具有十分重要的经济价值与学术价值。最近,图卷积网络技术地快速发展引起了广泛关注,它已被成功地应用于各种领域,例如网络分析和自然语言处理等。图卷积网络是一种简单且高效的图神经网络,它能够很好地捕获节点与节点之间的高阶邻域信息,我们将文本数据作为图节点进行建模,从而可以有效地捕获到文本中的全局词汇信息,这使得其在文本分类方面取得了巨大进展。但是,图卷积网络不能很好地获取到文本的局部上下文信息,如单词顺序。另一方面,由于短文本语句较短,其同时存在语义稀疏性和模糊性等问题。为了解决以上问题,本文从图卷积网络分类模型和文本特征表示这两个方面入手,进行了如下研究工作:(1)本文提出一种用于短文本分类的BTM图卷积网络模型(BTM-GCN),该模型对短文本数据进行文本预处理后,利用BTM主题模型进行主题训练,再将训练结果与短文本进行基于异构图的文本建模,该异构图灵活地建模了词、文档、主题对象之间的语义信息,同时合并了潜在的语义关联信息,并使用图卷积网络来捕获文档节点的邻域节点嵌入的语义信息,从而缓解了短文本的语义稀疏性问题。本文在多个数据集上进行了实验,达到了较基准模型更好的分类性能,表明我们提出的BTM-GCN模型是一种十分有效的文本分类模型。最后,还分析了模型的各个部件对最终分类结果的影响,探究了主题数、最相关主题数、滑动窗口大小等参数对模型效果的影响。(2)仅考虑全局词汇信息的GCN可能无法很好地捕获到文本的局部上下文信息,例如单词顺序,而这对于理解句子的含义是非常重要的。本文提出BERT-GCN模型,该模型将词汇图嵌入模块与BERT进行集成融合,目标是用词汇表上的全局信息来补充BERT捕获到的局部语义信息,并允许这两种类型的信息通过多层注意力机制进行交互融合。我们对三个短文本数据集进行了分类实验,结果表明利用图卷积得到的图嵌入确实为BERT提供了有用的全局信息,从而提高了性能。与仅使用GCN和BERT相比,我们的模型可以明显取得更好的分类结果,表明了BERT-GCN将这两种类型的语义特征表示进行交互融合的有效性。
其他文献
高速铁路的安全运营与人民的生命安全息息相关。轨道动态检测数据是由高速综合检查列车通过一系列传感器收集的多变量时空数据,反映着轨道的实时健康情况。基于机器学习理论,研究如何从大量的轨道检测数据中挖掘高铁轨道的演变规律,如何对动检数据异常情况作出快速准确的判断并进行剔除,并对未来可能发生的超限情况作出及时的预测预警,不仅在时空数据挖掘领域具有理论研究价值,同时也可给运维部门提供辅助决策,具有重要的实用
本文基于《抱朴子》内外篇系统论述葛洪的隐逸思想。葛洪是两晋时期著名道士,也是一位在道教史上承上启下的重要人物,主要代表著作有《抱朴子》内外篇、《神仙传》、《肘后备急方》等。前人对葛洪及其隐逸思想都有所讨论,但还存在各种各样的问题,如对儒道两家隐逸思想各执一端,对隐逸思想本身阐发不够,对隐逸思想论述大而化之等等。有鉴于此,本研究主要从以下四个方面展开系统论述:其一,早期隐逸的渊源及其思想流变;其二,
早在2016年,我国就开始重视中央与地方财政在支出责任问题方面的改革工作,以国务院牵头制定了相关指导意见,其中明确养老保险由中央及地方政府共同管理,共同负有支出责任。但是,改革工作推进并不顺利,我们在养老保险支出责任问题方面的工作划分存在部门错位,管理流程有很多环节缺失,导致养老保险无法有效发展,主要问题在于:针对支出责任划分没有有效的法律法规作为支持、实施中的责任划分不合理、支出与资金不平衡等多
磁悬浮车辆作为一种快速、舒适、环保的交通出行工具已经成为轨道交通行业未来发展的主要趋势之一。磁悬浮车辆在运行过程中依靠电磁力支撑车体自重和乘客重量,因此其轻量化设计具有十分重要的意义。碳纤维复合材料由于具有高比模量、高比强度等优异力学性能而被逐渐应用于磁悬浮车体轻量化设计中。但碳纤维复合材料结构的力学性能与其铺层方式密切相关,通过铺层优化可以充分发挥其优异的力学性能。因此本文将通过材料力学性能试验
海洋生物污损对船舶,海洋设施的安全使用有巨大威胁,同时造成了难以估量的经济损失,在基体表面涂刷防污涂料作为最实用的防污手段被广泛应用。传统的防污涂料由于对海洋释放有毒防污剂被逐步限制使用,未来防污涂料研制越来越重视环保与高效。单宁酸是一种具有良好防污性能的天然化合物,但其极易溶于水的特性限制了其在海洋涂料中的应用。本文介绍了一种以单宁酸为原料的环保防污剂制备方法:利用铁离子和单宁酸的络合作用制备不
随着智能电子设备在各行各业的快速普及,高功率和高度集成化成为电子设备发展的重要方向,而散热成为限制设备快速发展的障碍。因为独有的质量轻、易加工以及成本低的优点使得聚合物材料大量应用到电子设备上,但聚合物本身的导热系数低至0.2 W·m-1·K-1,因此,多种高导热系数的纳米材料如石墨、碳纳米管、氮化硼、石墨烯等为了提升复合材料的导热性能而被引入聚合物中,其中碳纤维(CF)凭着优异的轴向导热系数也受
本文是一篇翻译实践报告,翻译的原语文本选自《天鹅之歌:漫长的旅程》(Swan Song:An Odyssey)的第四到第六章。原语文本体裁为小说,故事背景设定为现代。主要介绍了主人公杰西失去亲人和伴侣后,为了走出悲伤,在老情人本的介绍下登上安菲特律特号游轮,并开始了新的人生之旅。选段主要讲述的就是杰西在旅行途中的所见所闻所感。文本内容和背景设定贴合现实生活,因此笔者选用了格特的关联翻译理论作为主要
贫困是我国一直重点关注问题,长期以来,我国脱贫攻坚工作更多与农村相关,城市贫困被忽视。2020年底我国基本消除贫困,但这一重大胜利并不意味着我国有关脱贫工作可以告一段落,城市中的特殊贫困群体将成为我国脱贫攻坚工作中一个新的重点难点。城市低保家庭是城市贫困的一个重要体现,从现实情况来看,部分城市地区长期存在低保家庭的一个重要原因,同时也是精准扶贫工作的一个重要着力点,就是广大低保家庭中存在的贫困代际
在“大众创业,万众创新”的战略背景下,鼓励自主创业对发展经济与解决就业民生问题起到积极作用,创新创业教育也因此成为一场国家行动。依托政府持续出台的大学生创业相关政策,创新创业教育的实践范围也逐渐扩大,但由于创业教育政策相关研究较多聚焦于宏观视角,而背后的微观层面研究尚未引起重视,大学生的创业现实情况仍未摆脱意向低、创新率低和成功率低的“三低”困境。因此,优化与完善大学生的创业教育政策体系,不仅需着
车辆获取传感器节点收集到的数据,结合车载自组织网络即VANET中其他节点获取的信息,以实现安全驾驶。在VANET中发送公告类型的消息,由移动车辆收集,上传到云服务器存储,并提供给其他车辆参考。然而,在开放的云环境中,明文数据容易受到未经授权地访问,甚至是恶意篡改。当前,许多车辆数据的存储方案都是基于云存储和属性加密等传统方案进行处理,而这些方案都面临数据存储中心化,或者是后期审计成员的集中化。而新