文本挖掘中语义表达与优化的关键技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户：eciling

【摘要】

：

互联网环境下，文本集呈现容量大、语义分布不均和变化速度快等特点。传统文本挖掘技术大多基于浅层架构，并以单一的词包方式进行全局语义建模，限制了它们在实际互联网应用中的性

【作者】

：

姚诚伟

【机构】

：

浙江大学

【出处】

：

浙江大学

【发表日期】

：

2017年期

【关键词】

：

文本挖掘流形学习深度生成模型参数优化语义表达

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网环境下，文本集呈现容量大、语义分布不均和变化速度快等特点。传统文本挖掘技术大多基于浅层架构，并以单一的词包方式进行全局语义建模，限制了它们在实际互联网应用中的性能效果。挑战聚焦在两个层面的核心问题:文本语义如何建模？模型能否根据环境自适应优化？本文研究立足这两个方向，并从实际应用需求出发，分别提出了两种语义建模方法和一种模型超参数自适应优化方法，并且在全国数字报刊新闻热点分析系统项目的实际应用中进行了验证，取得较好效果。论文的主要工作如下:　　提出了一种基于局部特征的半监督语义建模方法，能够综合使用互联网环境下有标签文本和无标签文本，借助须链接和不能链接信息，实现文本语义的半监督建模，并生成高效的哈希代码。该方法的创新点是采用拉普拉斯矩阵来放开二进制约束和正交约束，使得每一位代码能够蕴含更多的信息。利用这种半监督方法，不仅提升了文本语义表达的准确度，而且能够更高效地在流形结构上区分文本集中的“噪声”，从而提升在互联网复杂语义环境下的应用效果。　　提出了一种基于深度生成模型的多态文本联合分布表达方法。深度学习在文本挖掘中最大的贡献之一是实现文本语义的分布表达。在此基础上，本文提出了一个基于多模的深度生成模型的新架构，用来生成句子（或词）和文本的联合分布表达。该架构的创新点在于能够利用逐层预训练的方式分别提取句子和文档的语义特征，并在顶层利用一个受限玻耳兹曼机对两者语义特征进行联合分布表达。应用这种联合分布表达机制，不仅可以帮助自动文摘在性能上取得新的突破，也可以很好地推广到其它实际应用中，如新闻热点的关键词提取等。　　提出了一种面向深度生成模型的超参数自适应优化方法。目前主流超参数优化方法大多是基于“黑盒”函数的贝叶斯优化法，优化过程须重复多次运行被优化模型。然而，由于深度模型的运行需要大量计算资源，很难直接使用这类优化方法。为此，本文提出一种基于自由能量间隔的自适应超参数优化方法对深度生成模型进行动态优化。其创新点在于利用自由能量间优化超参数过程中能够避免重复运行整个模型，显著提高优化效率的同时，提升了深度生成模型对文本语义分析的性能。　　上述三种方法的研发需求均来自全国数字报刊新闻热点分析系统项目，并在该系统中得到了验证。具体而言，通过基于半监督的语义建模方法，能较好地对互联网采集的数字报刊新闻文本集进行去噪，帮助提升后续热点聚类的效果;为应对固定化深度生成模型在新闻热点分析中性能波动大的问题，通过自适应的超参数优化方法，帮助模型在面对不断变化的新闻集时保持持续稳定性能;通过基于深度生成模型的多态文本联合分布表达的方法，强化关键词与新闻文本的特征关联，实现高价值主题词的提取。

其他文献

甲醇合成系统仿真技术的研究

随着我国工业水平的发展，DCS在工业中的应用越来越普遍。本次研究的目的就是想针对甲醇合成的工艺过程，研究化工生产过程仿真系统的开发方法，进而开发一套具有实用价值的甲醇生

学位

仿真模拟甲醇集散式测控系统序贯法

Web Services在企业信息系统中的应用研究

随着软件技术和Internet的迅猛发展，企业信息系统原有的C／S结构越来越不能满足企业计算在分布性、可扩展性和异构性等方面的要求。三(N)层系统构架将业务逻辑从客户层中分离出

学位

管理信息系统合同管理XMLWeb ServicesSOAP

大型水电厂调速监测控制系统中神经融合理论的研究

该文主要的工作和研究由以下几部分组成:一、针对传统的信息融合模型与具体应用相关的不足,提出了一种具有普遍意义下的信息融合模型.二、分析研究了几种神经网络的融合性能.

学位

信息融合智能控制故障诊断神经网络神经融合自组织D-S证据理论反馈

嵌入式实时操作系统测试研究

在当前数字信息技术高速发展的后PC(Post-PC)时代,随着嵌入式系统应用的深入,出现了各种各样的通用和专用嵌入式实时操作系统.如何测试嵌入式实时操作系统保证嵌入式系统的质

学位

嵌入式系统电子书测试充分性静态测试动态测试可靠性评估

制冷并联机组变频控制系统

随着计算机技术的发展，自动化控制已在工业生产领域中得到了广泛应用，为达到高效、节能、延长机组使用寿命的目的，大型制冷工程常采用多台小功率制冷机组并联替代单台大功率制冷机组的设计方案。与单台制冷机组相比，制冷并联机组的控制模型复杂、控制过程难度大，世界上制冷并联机组的自动化控制系统尚处于实验阶段、成型产品不多见，控制系统仍基本依靠人工方式实现。由此造成许多显而易见的问题：难于调整平衡制冷并联机组中各

学位

制冷单片机变频控制比热率

几何定理机器证明系统的开发与研究

通常,几何定理的证明是依据公理系统,按一定的逻辑规则演绎地进行。对于每一个定理,其证明的方法都是不同的,一种方法只适用于一个定理,没有通用的证明方法或指导思想适合于

学位

吴方法几何定理机器证明特征列

面向对象程序切片中的控制流分析

在研究现有控制流分析理论的基础上,该文采用基于图论的方法求取控制依赖关系,该方法具有很好的可扩展性和通用性.它主要是通过将控制流图转化成后必经结点树,再根据后经结点

学位

控制流分析程序切片控制依赖图

多策略数据挖掘平台MSMiner构建中若干问题的研究

本文首先叙述了数据挖掘软件的发展历史，分析每一阶段软件产品的优缺点，并将其与MSMiner(一个由中科院计算所信息智能国家重点实验室开发的多策略数据挖掘平台)相比较，以此展示

学位

数据仓库联机分析处理抽取、转换与装载元数据关联规则BP算法

基于IPSEC协议的VPN安全网关研究

随着网络技术的高速发展，利用广泛开放的网络环境已成为时代发展的趋势，但网络在提供开放和共享资源的同时也不可避免地存在安全隐患。在国内外网络不安全的严峻形势下，研究

学位

网络安全虚拟专用网网关IPSec

基于单幅RGB--D图像的高精度肖像模型全自动快速生成

学位

文本挖掘中语义表达与优化的关键技术研究

其他学术论文