基于深度学习的论辩组件识别和分类问题研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:fc2sql
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子商务和人工智能的发展以及社交媒体用户数据的爆炸性增长,从大规模信息流中发现、分离和分析核心论点变得十分必要。论辩挖掘(Argumentation Mining)的主要目标是自动地从文本中提取论点、论据以及它们之间的逻辑关系,以便为论辩和推理引擎的计算模型提供依据和结构化数据。其中论点、论据等统称为论辩组件,论辩组件的类别根据不同的应用场景有不同的定义。本文主要关注的是论辩挖掘中的论辩组件识别和论辩组件分类两个任务。  目前论辩组件识别和分类任务中普遍存在着复杂的人工特征抽取工作和很强的领域依赖性。本文利用深度学习自动抽取文本特征,大大减少了人工特征的复杂工作,同时对领域的依赖性更小。  在论辩组件识别任务中,本文在双向循环神经网络(Recurrent Neural Net-work,RNN)的基础上加入条件随机场层,同时考虑多个词语的预测标签,提高了预测效果。另外,在深度学习方法的基础上提出联合RNN模型,对论辩组件识别中的两个子任务联合建模,有效避免了错误传递问题,同时也进一步提高了组件识别的准确度。  在论辩组件分类任务中,观察到文本中指示性词语(如表示因果关系的词)对论辩组件分类的作用,本文利用Attention机制对输入的词语学习不同的权重,从而提高这些指示性词语的影响力,进一步提高了分类准确度。
其他文献
科研活动中存在大量文档形式的资料。支持e-Science的协同工作环境不仅要能实现常规的文档共享和管理,还需充分发挥在线协作的优势,能够对大量多种格式的文档进行即时在线浏览
信息技术的飞速发展给数据保护提出了越来越高的要求。传统的数据保护技术无法很好解决备份时间窗口、恢复时间窗口及恢复时间点粒度这三者之间的矛盾关系,持续数据保护(Cont
学位
跨文本命名实体同指是指出现在多个文本中的相同名字指称现实世界中的相同对象。同指消解则是判断相同的名字是否指称相同对象的过程。跨文本同指消解对于多文本摘要和信息融
学位
随着计算机网络和无线射频识别(RFID,Radio Frequency Identification)开环应用的普及,RFID搜索技术已经成为一个研究热点。由于RFID电子标签的容量十分有限,因此大量的RFID
在生物学当中,BLAST序列比对算法是一个应用极为广泛的算法,它对海量DNA或蛋白质序列进行处理,具有数据密集和IO密集型特征,消耗时间通常令人难以忍受。因而,通过并行化来提高BLAS
随着3G通信技术的成熟及3G网络的大规模建设,3G网络的“杀手级”应用-移动视频,正越来越受到人们的广泛关注。目前实现的多媒体服务器大部分采用的是SIP通信协议,而3G视频通
Web服务组装作为一种跨组织业务流程的实现形式,得到了广泛的关注。通过把多个功能单一的Web服务集成到一起,可以提供实现复杂业务逻辑的完整解决方案。WS-BPEL(Web Service Bus
学位
网络钓鱼(Phishing)是近几年来逐渐兴起的网络犯罪。它利用多种手段欺骗用户致使用户泄露个人隐私信息,影响了互联网经济的有序发展,破坏了互联网的信任环境。因此,打击网络钓鱼
中国科学院资源规划项目(Academia Resource Planning,简称ARP)是实现中国科学院资源规划的信息系统工程,主要任务是对全院人力、资金、科研基础条件等资源进行优化配置以及对
稳态强磁场装置是国家十一五重大科技基础设施建设项目,目的是为我国的科学研究提供理想的稳态强磁场极端实验条件和满足多学科实验需求的实验测试系统。中央控制系统是稳态
学位