【摘 要】
:
表示学习是自然语言处理中的一项基本任务,并且在文本分类任务中尤为重要。本文主要从词和文本表示出发探索词和文本表示的性质,并从中发现和解决现有模型在文本分类中存在的三方面问题:文本信息溢出、文本信息不精细和文本语义模糊。(1)所有的模型在处理长文本时都会存在文本信息溢出的问题。基于神经网络的文本表示模型通常在输入层定义固定的输入长度,并将过长的文本截断,从而尽可能地避免了文本信息的溢出。而对于基于线
论文部分内容阅读
表示学习是自然语言处理中的一项基本任务,并且在文本分类任务中尤为重要。本文主要从词和文本表示出发探索词和文本表示的性质,并从中发现和解决现有模型在文本分类中存在的三方面问题:文本信息溢出、文本信息不精细和文本语义模糊。(1)所有的模型在处理长文本时都会存在文本信息溢出的问题。基于神经网络的文本表示模型通常在输入层定义固定的输入长度,并将过长的文本截断,从而尽可能地避免了文本信息的溢出。而对于基于线性操作的文本表示模型,该问题带来的影响更为严重,并且当前仍然没有有效的解决方法。为了解决该类模型存在的问题,本文提出了词和文本容器的概念,并且从容器的角度出发进一步提出了一种基于容器的文本表示方法,该方法主要使用聚类算法将文本容器划分成多个子容器。根据聚类算法的不同,本文提出了两种模型:基于k-means聚类的文本向量拓展模型和基于随机聚类的文本向量拓展模型。它们能够有效地拓展文本向量,增强文本存储信息的能力。在5个长文本分类数据集上进行了实验,结果表明本文提出的模型能够有效地解决信息溢出问题,并且提升了文本表示的质量。(2)文本信息不精细问题主要由于词和文本的表现形式过于单一。目前,几乎所有的模型都是以向量的形式表示词和文本,显然这种单一维度所展现的特征是有限的。为了解决这一问题,本文研究了细粒度的特征表示方法,提出词和文本的矩阵表示思想,并将矩阵思想成功应用到了基于线性操作的文本表示模型中,构建了一个有效的词和文本矩阵表示架构,即doc2matrix。Doc2matrix通过定义精细的子窗口构建矩阵表示,具体包括两种基于子窗口的词矩阵生成器和三种基于子窗口的文本矩阵生成器。此外,为了有效地抓取文本矩阵中的二维特征,本文也提出了一种基于卷积的文本矩阵分类器。在4个长文本分类数据集上进行了实验,结果表明doc2matrix能够生成更高质量的词和文本表示,并且优于现有的一些基于线性操作的文本表示模型。这也进一步证明了通过doc2matrix得到的词和文本矩阵不仅能够包含文本中更精细的语义特征,而且还引入了丰富的二维特征。(3)语义模糊问题是造成文本分类性能下降的主要原因,它是由于模型无法为文本中重要的词生成更贴近其上下文语义的词表示而导致的,如多义词等。虽然动态的表示模型,如ELMo、BERT等,能够根据上下文生成动态表示,但是它们仅仅是通过复杂的网络层处理文本中的语义,而在输入层仍然使用传统的表示词的方法,即一个词对应一个固定的向量。显然,该类模型所得到的词和文本表示仍然混合了来自不同语义的上下文的信息。因此,它们没有从根源上解决语义模糊的问题。为了解决这个问题,本文主要研究了词的多向量表示,并提出了一种优化词和文本表示的方法,即多义词感知的向量表示模型PAVRM。PAVRM使用基于上下文聚类的多义词识别方法来标识语料库中的多义词。此外,该模型还包含两种构造多义词表示的方法:基于上下文的多义词表示方法(PAVRM-context)和基于中心向量的多义词表示方法(PAVRM-center)。在三个标准的文本分类任务和一个自定义文本分类任务上进行了实验,结果表明PAVRM能够有效地标识出文本中的多义词,并生成更贴近其上下文语义的多义词表示。此外,该模型也能够有效地引入到现有的模型中提高原模型的分类性能。
其他文献
不少中老年人有塞牙苦恼。塞牙又称食物嵌塞,造成食物嵌塞的原因主要有以下几种:1.牙周病。老年人牙龈存在不同程度的生理性退缩。牙周病会使牙龈退缩速度明显加快,以前被牙龈填满的位置会出现三角形的间隙,牙齿也会出现松动。此时,一般会发生两种类型的食物嵌塞。第一种为垂直性食物嵌塞,发生在上下牙齿咬物时。由
可移动货架仓储系统极大增强了商品储位的灵活性,有利于显著提高具有“一单多品”特征的电商订单的拣选效率。然而,也正是由于货架的可移动性,货架的位置如何摆放才能有效地应对电商订单拣选的挑战,又成为电商仓库决策者亟待解决、制约该类仓储系统优势发挥的新的难题。由于该类仓储系统中每个货架存储着不同种类和数量的商品,如何根据顾客对商品的订购规律,以最大化订单拣货效率为目标,实现每个货架在仓库中的合理定位,是解
目的:探究视频脑电图在小儿癫痫诊断中的应用价值。方法:回顾性选取郑州人民医院2018年10月至2019年10月收治的小儿癫痫患者65例,另选取同期健康体检者22例,均行视频脑电图与常规脑电图监测,比较两种监测方案诊断效能(准确率、灵敏度、特异度、漏诊率、误诊率)、监测期间痫样放电、临床发作相关情况及视频脑电图监测异常放电情况。结果:视频脑电图诊断小儿癫痫准确率、灵敏度高于常规脑电图,漏诊率低于常规
张大爷最近非常郁闷,最近这几年,每顿饭吃完都会塞牙,尤其是吃肉之后,牙缝塞满食物,感觉牙齿都要被挤松了。不管它吧,除了挤着难受,牙缝里还会发臭,时间久了牙龈还会莫名其妙疼起来;管它吧,每天都用牙签剔牙可真是麻烦,红肿的牙龈一碰还会出血。拖延了许久的张大爷终于在家人的建议下去看牙医。见到医生后,张大爷感叹道:"大夫,我上岁数了,牙松了,好东西无福消受了,一吃肉就塞牙!这可怎么办呀?"经过医生的
航天类STEM课程的开发与实施,旨在激发学生探索浩瀚宇宙的精神与责任担当,是培养未来航天领域创新人才的重要举措。航天领域的主题不仅基于真实情境、具有挑战性和拓展性,而且涉及到的学科范围广、交叉多,非常适合STEM课程教学。其局限性在于,航天领域的项目主题离学生的生活和学习很远,
【背景】全球大约有2.9亿人感染乙型肝炎病毒(hepatitis B virus,HBV)[1],未治疗的慢乙肝患者中,5年后肝硬化累计发病率高达8%―20%,5年后肝癌发病率达2%―5%[2]。慢乙肝的“临床治愈”(有时也称“免疫学治愈”),是指在慢乙肝患者血清中乙肝表面抗原(hepatitis B surface antigen,HBsAg)阴转,伴或不伴HBsAg的血清学转换,以及HBV D
本论文涉及设计、研究CO2矿化的绿色化工技术,旨在合成高附加值CaCO3材料,如文石和球霰石。CaCO3常为多种晶型混合物,控制合成高附加值的单晶型CaCO3产物具有一定难度。基于此,本论文研究对CaCO3晶型和晶体性能具有高选择性和稳定性的技术。此外,因为系统中使用的添加剂可以回收使用,不会产生潜在的环境废物或副产物,因此该技术对环境友好,可以满足可持续生产的需求。首先,设计了一种高压固-气反应
粘性不可压缩Navier-Stokes(NS)方程刻画着流体的运动规律,是一类典型的非线性方程,其高效、稳定、高精度的数值模拟无论在科学计算理论还是工程应用中都具有重要的意义.(Navier-)Stokes方程的耦合模型通常能够描述发生在多个区域的多个物理现象,其在水力学、环境科学、生物流体力学等诸多领域有着广泛的应用.本文针对不可压缩流体流动及其耦合问题提出了若干高效的有限元算法.第一,针对不可
研究背景心力衰竭是心血管疾病的终末阶段,长期以来,心力衰竭以死亡率高、危害严重等特点备受关注。扩张型心肌病是导致心力衰竭极其重要的病因之一,其患病人群心力衰竭发病早且进展迅速,临床结局多为心脏移植。2016年欧洲心脏病立场声明将其定义为:扩张型心肌病是一类以心室扩大及收缩功能减低为主要特征的心肌病,发病时需排除冠心病与其他加重心脏负荷的疾病(如高血压,心脏瓣膜病,先天性心脏病等)。遗传因素是扩张型
多相流体流动在自然界和工程应用中广泛存在,例如石油开采、废弃油气矿中的CO2地质封存、海上原油泄漏、乳剂和泡沫的生成、雨滴下落等,是生物、能源、环境、微流控芯片等诸多领域的共性关键科学问题。多相流问题涉及到不同相之间的流动、传质、复杂的界面运动以及流固相互作用,是一个涉及流场和相场的多场耦合问题,其传输机理十分复杂。由于理论研究和实验方法的限制,数值模拟成为研究此类复杂问题的重要手段。近年来,基于