文本否定范围识别技术研究及其应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zz727zz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本否定范围识别是信息抽取领域的一项重要任务。该任务可以为许多其他自然语言处理领域的任务提供帮助,比如情感分析、医学数据挖掘,关系抽取和问答系统等。由于否定词的使用容易将积极的表述转化成相反的意思,从而带来错误的预测和理解,因此近几年来否定范围的自动识别任务在学术界引发了广泛的关注,并存在许多亟待解决的问题。本篇博士论文中,我们将通过应用不同的机器学习方法和基于神经网络的方法,抽取句子中否定线索(即否定词)和识别出相应的否定范围(即受到否定线索影响的词语),从而来解决自然语言处理领域中否定范围识别这一前沿问题。我们重点研究如何构建一个较少依赖于手工设计的特征,同时更专注于发掘有力的否定线索与否定范围识别器的系统。进一步,我们将否定范围识别模型应用于情感分析系统中,来证实文本否定范围识别模型有利于提高情感分类的性能。我们提出了基于CRF(条件随机场)的否定线索和否定范围识别方法。该方法将研究任务转换为序列标注问题,将其分解为两个子任务,一个是否定线索识别,另一个是否定范围识别。对于每一个子任务,我们都采用CRF模型来解决。CRF模型基于从句法或上下文中提取出来的简单的特征集合来进行建模,最终基于该模型进行否定线索和否定范围识别。我们提取到的特征有能力在降低特征工程工作量的同时,保留住否定线索和否定范围中的词之间的关系信息。这种方法优于在同领域的其他所有方法。我们基于循环神经网络和词向量提出了一种新的否定范围识别方法。这个工作对比了不同循环神经网络(如:LSTM,Bi-LSTM和GRU)和其他机器学习方法(如:CRF)在否定范围识别任务上的效果。不同神经网络模型的输入是一个句子和句中所有词语的词向量表示。这个工作的创新点在于,在我们所接触到的文献中,我们是第一个将神经网络用于否定范围识别任务上。此外提出的方法的效果在SFU评论数据集上超过了现有的方法,从而证明了循环神经网络在不引入额外特征的前提下,效果远好于其他机器学习的方法。我们将之前的循环神经网络模型与卷积神经网络结合在一起来捕捉不同类型的信息,从而在不引入额外特征的前提下,提高解决否定范围识别的能力和增强神经网络模型的鲁棒性。这个方法中的循环神经网络(如,Bi-LSTM)可以自动捕捉到与句子有关的上下文特征,卷积神经网络从否定线索与待选受到影响的词中最短句法路径(如,依存关系或短语结构)上捕捉句法特征。我们提出的方法在否定范围识别任务上被证明是具有鲁棒性的,并且在生物医药领域数据上我们的方法达到了最好的效果。最后,我们将否定线索识别和否定范围识别的结果用于情感分类任务上。这个工作中,我们复现了一个基于神经网络的情感分类模型,并比较了采用传统否定词方法和采用我们提出的否定范围识别方法。结果表明否定范围识别有利于情感分类性能的提升,且我们提出的否定范围识别模型比传统的否定词识别方法更有效。
其他文献
中国自改革开放以来,先后经历了上世纪80年代中后期、90年代初期的严重通货膨胀,以及自2006年以来的较温和的通货膨胀。最近一次的通货膨胀虽然严重程度不及前两次,但也给宏
【正】 一通过巴拿马地峡或尼加拉瓜挖掘一条地峡运河,是拉丁美洲各国人民想望已久的事情。早在19世纪20年代,玻利瓦尔任新格拉纳达共和国总统时期,就曾计划开凿这条运河。18
随着物联网技术在油气生产中的应用推广,基于物联网架构的各种工业应用得到快速发展。本文以游梁式抽油机的节能控制应用为例,对传统物联网架构下抽油机节能控制系统架构存在
光是影响植物生长发育的重要环境因子之一。光通过其信号途径负调控植物下胚轴的伸长生长。微管结合蛋白通过调控微管骨架的组织排列和动态变化进而调控了植株下胚轴细胞的生
目的:分析中西医结合治疗肾结石的临床效果。方法:本次选择对象为肾结石患者66例,时间在2017年3月耀2018年3月,根据电脑随机分配的原则分为两组,实施体外碎石术和常规西医治
爆炸焊接是利用炸药的压力使两块金属间形成牢固的结合面的加工工艺。该工艺与常规工艺相比,其优势在于能把两种不同的金属大面积地焊接在一起,且投资少,成本低,是制造复合板
<正>股权本质是一种权利,股权管理是基于契约精神的股权运行规则,股权管理也是公司治理的重要基石。金融机构股权结构的安排和治理水平,是影响金融机构经营管理水平及风险管
<正>大观国际GD-Lighting Design由主持设计师王彦智先生于2004年在香港成立,是一家专业从事室内外照明设计的独立机构,主导进行了多个国家级、地方级地标照明设计。GD-Light
为了制订人口政策,需要掌握某个时点上的人口数。在普查年,通常使用人口普查后进行的事后计数调查估计人口数,并用人口统计分析模型估计的人口数来佐证。事后计数调查的核心
<正> 2003年8月“第二届全国中国画展”将在大连隆重开幕,并陆续在北京、上海、深圳等地巡展,这是继1993年“首届全国中国画展”之后,相距十年,中国美协、中国画艺术委员会推