【摘 要】
:
在过去几年里,尽管立场检测研究取得了很大的进展,但是现有的立场检测工作大多只关注训练集和测试集分布一致的情况,却忽略了社交平台话题的特点,即较快的更新速度。处理新兴的陌生话题领域也因此变得极为重要。为此,本文使用了深度神经网络作为基础模型来探索立场检测任务处理未知话题的方法。具体地,本文将从以下三个方面展开探索:(1)基于领域泛化的未知目标立场检测方法:本文将未知目标立场检测任务看作分类任务,首先
论文部分内容阅读
在过去几年里,尽管立场检测研究取得了很大的进展,但是现有的立场检测工作大多只关注训练集和测试集分布一致的情况,却忽略了社交平台话题的特点,即较快的更新速度。处理新兴的陌生话题领域也因此变得极为重要。为此,本文使用了深度神经网络作为基础模型来探索立场检测任务处理未知话题的方法。具体地,本文将从以下三个方面展开探索:
(1)基于领域泛化的未知目标立场检测方法:本文将未知目标立场检测任务看作分类任务,首先使用了两个Bi-LSTM分别对话题和评论进行特征提取,并且使用了条件编码方式来将话题中的信息融合进文本的向量表示,最后,引入领域泛化方法中的对抗神经网络,以使模型能够捕获更加通识的信息特征表示。分析实验结果表明,将话题看作领域并且引入领域泛化方法有利于提升模型在未知话题下的检测性能。
(2)基于数据增强的未知目标立场检测方法:在上文引入领域泛化方法的基础上,本文尝试使用回译的方法来对训练数据进行增强,首先将本文所用到的英文数据训练集使用现有的API翻译成其他语言,比如中文,接着再翻译回英文。为了使增强后的数据依然保持之前的标签特征,本文引入了CBERT模型,使用随机遮挡词汇并重新生成的方式来实现文本增强。实验结果表明文本数据增强对于本文的任务有着提升效果。
(3)基于外部知识的未知目标立场检测方法:为了能让系统利用到一些词汇之间比较隐晦的联系,本文在上文的基础上,尝试使用预训练模型方式和对话题添加解释性信息来丰富信息表示,进一步达到引入外部知识的目的。实验数据表明,通过使用预训练模型产生的词向量包含了先验知识并且可以提升模型的检测性能。
其他文献
随着各种基因检测技术的发展,人类获得的数据越来越多,但是其中与特定疾病相关的基因数量却很少,人类现有的能力还是不能发现人体致病机理的秘密,本文研究的内容就是充分利用有限的资源来挖掘出可能致病的基因。现有的算法对复杂疾病的致病基因的发现能力较弱,深度学习却能很好的预测它们。由于推荐算法与致病基因发现任务具有相似性,所以本研究进行了借鉴和学习。本论文主要有以下三部分工作内容,首先,从海量基因中选择候选
显著性目标检测是从一幅图像中检测出前景的轮廓,其在深度学习中具有广泛的用途,是很多计算机视觉任务的首要工作。由于越来有多的任务都需要依靠显著性目标检测来完成,最近几年这个任务成为了人工智能热门的研究方向。现有的方法在检测简单的场景时效果非常的好。然而,针对一些复杂场景,例如图像中包含不规则目标、多目标、小目标等场景,或者目标边界轮廓比较复杂等情况,现有的检测方法无法有效的处理这些问题。很多方法预测
随着计算机和互联网的飞快发展,百度、新浪、字节跳动和网易等互联网企业也快速发展起来。伴随着互联网企业的快速发展大量的数据喷涌而来,信息过载导致用户不能快速的筛选对自己有帮助的信息。为此,研究者们开始着力于开发推荐系统帮助用户进行决策。推荐算法包括传统推荐算法和基于深度学习的推荐算法。目前,传统的推荐算法和基于深度学习的推荐算法面临的挑战都是数据稀疏和冷启动。数据稀疏是由于用户项目之间的交互数据过少
伴随着移动互联网和大数据的高速发展,互联网产生大量的数据,这些海量的数据在给我们带来丰富选择的同时,也给我们带来了信息过载的问题。推荐系统旨在根据用户和项目之间的交互历史来自动构架用户和项目的之间的联系。学术和工业界的研究表明,推荐系统能够有效解决信息过载问题,提升数据的利用率。然而传统的推荐算法受限于有限的附属信息和模型结构,无法实现理想的效果,而且非常容易受到数据稀疏的影响,尤其是冷启动问题。
睡眠是一种复杂的生理活动过程,充足的睡眠时间和高质量的睡眠质量是人体生理健康和心理健康的必要条件。睡眠障碍严重影响人类健康和生活,将睡眠阶段准确的分类是检测和治疗睡眠障碍的关键,睡眠阶段分类也称之为睡眠分期。在睡眠分期领域,主流的深度学习方法在同一层次上仅仅使用了某种单一的关系归纳偏置,这会使得深度学习方法的特征提取方式不够完备并导致该方法的性能受到限制。本文使用平移不变性、时间不变性和分层处理等
开发一种治疗疾病的新药是一种非常漫长和昂贵的过程,为已知药物确定新的疾病适应症,即药物重定位,有助于减少药物的研发成本。目前,大多预测药物相关疾病的方法都是综合利用与药物和疾病相关的数据。然而这些方法虽然聚焦在整合多种药物特征,并没有考虑到各种特征间的多样性。此外这些方法尽管利用了药物和疾病相关的各种数据,但是它们都是根据浅层模型提出的,很难挖掘出药物和疾病之间复杂的关联关系。这些不足将在一定程度
随着社会的进步,移动互联网已经涉及到各行各业,移动电商和基于位置的社交网络(LBSN,Location-Based Social Networks)也得到了迅猛的发展,如淘宝,京东,Facebook,Twitter,Foursquare,Gowalla,Yelp等。与此同时,诸如信息爆炸问题也日益受到人们的关注,如何从逐日爆炸性增长的互联网海量数据中提取出对用户有实际意义的信息,同时尽可能地过滤不
由于户外环境的复杂多变,如雨雾天气、低光照、噪声等,图像采集设备收集到的图像常会受到不同程度的损坏。图像的退化不仅会降低可视化效果,而且会影响下游的目标识别等高级视觉任务。低质量图像恢复旨在从退化图像中恢复高质量图像信号,传统的图像恢复方法主要利用局部或非局部的图像特征,缺乏深层次的语义信息,限制了在复杂场景中的特征表示能力。近年来,基于卷积神经网络(CNN)的方法能够同时提取浅层和深层特征,在图
电子病历(Electronic Medical Record,EMR)是使用计算机记录病人治疗情况的一种形式,它记录了病人所有的诊断治疗信息,比如现病史、既往史等,这些信息具有极高的医学价值。随着人工智能、自然语言处理技术的成熟落地和成功应用,各个领域开始借助这些技术在不断的更新和进步,如,在医学领域,使用EMR辅助医生决策,提高疾病诊断性能已经成为了至关重要的任务。但是,之前的工作仅仅使用卷积神
随着计算机技术的发展,以深度学习为代表的方法为医疗图像的研究与发展开拓了新的方向。由于视网膜血管与糖尿病、高血压、心脑血管等疾病的重要联系,研究人员对自动分割视网膜血管这一医学任务也给予重要关注。在目前大多数基于深度学习的视网膜血管分割方法中,以编码-解码结构的分割模型融合了视网膜图像的全局和局部信息,在分割性能上取得了突破性的发展。但由于视网膜血管复杂的形态变化、病变区域的影响、毛细血管的分支多