论文部分内容阅读
互联网环境下,文本集呈现容量大、语义分布不均和变化速度快等特点。传统文本挖掘技术大多基于浅层架构,并以单一的词包方式进行全局语义建模,限制了它们在实际互联网应用中的性能效果。挑战聚焦在两个层面的核心问题:文本语义如何建模?模型能否根据环境自适应优化?本文研究立足这两个方向,并从实际应用需求出发,分别提出了两种语义建模方法和一种模型超参数自适应优化方法,并且在全国数字报刊新闻热点分析系统项目的实际应用中进行了验证,取得较好效果。论文的主要工作如下: 提出了一种基于局部特征的半监督语义建模方法,能够综合使用互联网环境下有标签文本和无标签文本,借助须链接和不能链接信息,实现文本语义的半监督建模,并生成高效的哈希代码。该方法的创新点是采用拉普拉斯矩阵来放开二进制约束和正交约束,使得每一位代码能够蕴含更多的信息。利用这种半监督方法,不仅提升了文本语义表达的准确度,而且能够更高效地在流形结构上区分文本集中的“噪声”,从而提升在互联网复杂语义环境下的应用效果。 提出了一种基于深度生成模型的多态文本联合分布表达方法。深度学习在文本挖掘中最大的贡献之一是实现文本语义的分布表达。在此基础上,本文提出了一个基于多模的深度生成模型的新架构,用来生成句子(或词)和文本的联合分布表达。该架构的创新点在于能够利用逐层预训练的方式分别提取句子和文档的语义特征,并在顶层利用一个受限玻耳兹曼机对两者语义特征进行联合分布表达。应用这种联合分布表达机制,不仅可以帮助自动文摘在性能上取得新的突破,也可以很好地推广到其它实际应用中,如新闻热点的关键词提取等。 提出了一种面向深度生成模型的超参数自适应优化方法。目前主流超参数优化方法大多是基于“黑盒”函数的贝叶斯优化法,优化过程须重复多次运行被优化模型。然而,由于深度模型的运行需要大量计算资源,很难直接使用这类优化方法。为此,本文提出一种基于自由能量间隔的自适应超参数优化方法对深度生成模型进行动态优化。其创新点在于利用自由能量间优化超参数过程中能够避免重复运行整个模型,显著提高优化效率的同时,提升了深度生成模型对文本语义分析的性能。 上述三种方法的研发需求均来自全国数字报刊新闻热点分析系统项目,并在该系统中得到了验证。具体而言,通过基于半监督的语义建模方法,能较好地对互联网采集的数字报刊新闻文本集进行去噪,帮助提升后续热点聚类的效果;为应对固定化深度生成模型在新闻热点分析中性能波动大的问题,通过自适应的超参数优化方法,帮助模型在面对不断变化的新闻集时保持持续稳定性能;通过基于深度生成模型的多态文本联合分布表达的方法,强化关键词与新闻文本的特征关联,实现高价值主题词的提取。