【摘 要】
:
文本分类任务作为文本挖掘的核心,已成为自然语言处理领域的一个关键问题。面对互联网上的文本资源爆炸式增长的趋势,如何有效的利用文本数据,挖掘其背后的商业价值和研究价值,具有非常重要的意义。在此背景下,本文以序列型文本数据作为研究对象,提出了两种融合上下文信息的文本分类算法。近年来,深度学习技术在特征提取和表示方面已经有了很大进展,且在大多数自然语言处理任务中获得了令人满意的成果。但是,结合国内外研究
论文部分内容阅读
文本分类任务作为文本挖掘的核心,已成为自然语言处理领域的一个关键问题。面对互联网上的文本资源爆炸式增长的趋势,如何有效的利用文本数据,挖掘其背后的商业价值和研究价值,具有非常重要的意义。在此背景下,本文以序列型文本数据作为研究对象,提出了两种融合上下文信息的文本分类算法。近年来,深度学习技术在特征提取和表示方面已经有了很大进展,且在大多数自然语言处理任务中获得了令人满意的成果。但是,结合国内外研究现状,在目前对深度学习的研究中,大多数的文本分类算法没有考虑到文本的上下文句子信息,并将其作为额外信息的补充利用,然而,如果给出一个没有任何语境的句子,即使人为的判断类别也有一定的困难。针对以上问题,本文提出了两种分类算法,一种是基于CNN的注意力机制融合上下文信息的文本分类算法,另外一种的基于BLSTM的注意力机制融合上下文信息的文本分类算法,通过从句子层面和词层面分别设计的注意力结构将上下文信息融合进最终的特征表示中,增加了特征信息的多样性。同时为了验证两种算法的可行性,本文首先使用了开源对话数据集进行实验,验证了两个模型在时间效率和准确性方面各自的优势,然后将分类模型应用于电网故障案例文本数据中,实验的结果充分证明了本文所提模型的有效性和通用性。本文的第一、二章阐述了论文的工作背景、研究意义和相关技术路线。第三章对本文所提的基于CNN的融合上下文信息的文本分类算法进行详细介绍,并对算法涉及到的技术难点和创新点进行分析。第四章对本文所提的基于BLSTM的融合上下文信息的文本分类算法进行详细介绍。第五章是对算法不同模块有效性验证的设计与实验,通过一步步实验证明本文所提创新点的有效性和整体模型的分类效果。第六章用实际的中文文本案例将模型应用于电网场景中,证明模型的通用性和有效性。
其他文献
当前我国农业农村发展已进入'结构升级、方式转变、动力转换'的紧要'关口',陕西实施农业特色产业'3+X'工程,是推进农业特色产业发展的战略之举,将让
计算机应用越来越广泛,学习使用计算机关键是学习计算机软件。软件具有种类多、更新快等特点,使得教学困难。本体能够描述概念及其之间的关系,能深入而简洁条理地表示复杂的
基于知识流动的系统动力学方法,定量并模拟分析了跨国公司在嵌入本土和海外创新网络的协同演进动态能力,结果显示:跨国公司创新绩效取决于其创新动态能力与全球创新网络嵌入
体育教学效率的提升是落实学生体育学科核心素养的发展的重要途径。发挥体育教学在学校体育发展中的主阵地作用,提出了了解学情,实施针对性教学;提升锻炼意识,鼓励主动学习;
为满足设计需求,基于可扩展三维语言对四挡变速器进行了虚拟装配,应用Auto Play M edia Studio软件设计了交互界面,从而完成四挡变速器虚拟装配平台的构建。所构建的四挡变速
作品撰写的目的在于传承红色基因、弘扬英雄精神;作者注重站在时代维度审视英雄壮举,在深透发掘中还原英雄样态,在放大传播中弘扬英雄精神。
个体及群体的社会行为与文化存在紧密联系,当冲突发生时,心理和文化解读对个体行为起着关键的决定性作用,心理文化因素在民族利益冲突中发挥的作用值得期待;我国现代化进程中
在中国重庆綦江区虎山足迹点发现了2个大型恐龙天然足模化石,化石赋存于砂质富集的夹关组的一悬崖底面。它们属于罕见的幻迹,同类足迹也发现于韩国和北美白垩系足迹点。放射
就我国足球运动发展现状而言,应当从基础建设入手,从"娃"抓起。小学足球人才培养更应成为受人们关注的一个焦点。本文采用文献资料法、问卷调查法等研究方法对滨湖小学足球运