【摘 要】
:
文本分类作为处理非结构化信息的一种有效手段,在自然语言处理领域得到了广泛研究和应用。然而由于文本数据具有非结构化、高维性、高稀疏性等特征,因此能否有效地表示文本信息是影响后续文本处理效果的关键因素,文本分类的效果也高度依赖于文本表示模型的效果。常用的文本表示方法是基于文本主题的文本表示,因此主题模型的准确度直接影响文本表示的精度。本文主要从文本主题模型和文本表示模型两个方面展开研究。LDA模型是以
论文部分内容阅读
文本分类作为处理非结构化信息的一种有效手段,在自然语言处理领域得到了广泛研究和应用。然而由于文本数据具有非结构化、高维性、高稀疏性等特征,因此能否有效地表示文本信息是影响后续文本处理效果的关键因素,文本分类的效果也高度依赖于文本表示模型的效果。常用的文本表示方法是基于文本主题的文本表示,因此主题模型的准确度直接影响文本表示的精度。本文主要从文本主题模型和文本表示模型两个方面展开研究。LDA模型是以全局的观念预测文档中的每个词,但它不包含文本特征词的上下文关系,缺失了文章的局部语义信息。目前基于LDA和潜在特征的模型改进方法分为两类,一类针对短文本,通过在大语料集上扩展词向量库改善模型效果;另一类通过词向量加和直接计算主题向量,此类方法词向量与主题向量分属不同语义空间,表示并不准确。考虑到LDA与现有改进模型的优缺点,本文将包含了文本语义特征的潜在特征向量引入模型,提出了基于LDA和潜在特征向量的文本主题表示模型LFV-LDA,在同一语义向量空间训练词向量、主题向量以及文档-主题-词的层次分布,改进后的模型可以直接输出文本主题向量。在新闻语料上对LFV-LDA模型进行训练和测试的实验结果表明,基于LDA和潜在特征向量的文本主题表示效果相对于传统的主题模型以及同类的LDA改进模型有了一定程度的改善。获得在文本分类中表现良好的文本主题向量后,本文在此基础上提出了两种文本表示方法。第一种是基于主题向量的概率分布关系的文本表示方法,该方法通过归一化加权统计主题向量的方式进行文本表示。第二种是基于Doc2Vec和主题向量的文本表示模型,该模型通过度量模型训练出的文档向量与主题向量的距离来将主题信息融入文本表示。最后在新闻语料上对模型进行训练和测试,实验结果表明,两个模型相较于传统模型都获得了更好的文本分类效果,且第二种文本表示模型效果优于第一种。
其他文献
通过理论公式推导,分析了结构扭转效应对楼层最大层间位移角的不利影响,得出了楼层最大层间位移角和层间位移比的比例关系,提出了楼层理论最大层间位移角的计算方法,并结合实
在分析检测与转换教学现状的基础上,指出目前检测与转换技术课程教学过程中存在的问题。结合教学实际情况并根据课程特点,将课程内容模块化分层设计,各模块内容呈递阶关系,既
目的:通过实施目标管理,以提高心血管内科轮转护士规范化培训的效果,提升轮转护士的履职能力.方法:通过对心血管内科2016-2018年入科轮转的40名轮转护士分成观察组和对照组进行
β溶血性链球菌抗生素耐药性的最新评估美国Kaplan报告称,β溶血性链球菌对大多数抗生素仍保持较高的敏感性。尽管细菌对抗菌药耐药性的不断增加已成为临床难题,但是β溶血性链
小学生审美观念的确立与完善为他们在今后的学习中提高对事物的认知能力和审美能力打下了良好的基础。在小学语文教学中,教师要善于引导学生通过阅读感受文章的语言美、意境
结合云霄翔球广场一期工程扣件式钢管外脚手架搭设实例,施工单位进行图纸自审并拟定搭设方案时对其所支承的2#楼裙楼屋面板原结构及其配筋进行验算,发现该楼板不能承受外脚手
目的:探讨高强度聚焦超声(HIFU)治疗子宫肌瘤对卵巢功能的影响方法:选择2015年7月至2016年7月于佛山市妇幼保健院行HIFU治疗的60例子宫肌壁间肌瘤患者进行研究,根据年龄不同
为研究厌氧消化液的不同投加方式对AOA-SBR(厌氧/好氧/缺氧序批式反应器)系统处理效果的影响,在温度为20.0℃、生活污水与厌氧消化液体积比为24∶1、污泥中AOB(氨氧化菌)所占比例
从药物化学的教学特点和面临的挑战出发,指出了教学改革的必要性。认领式思维导图采用学生小组认领知识模块的形式,以一种形象、直观的思维方法构建知识体系。在药物化学教学