论文部分内容阅读
大数据时代数据的爆炸式增长,为人们发现隐藏在海量数据中的知识,实现数据驱动的科学决策提供了宝贵机会。文本数据作为广泛存在的一种数据类型,蕴藏了大量待发现的知识。文本挖掘技术即为理解文本数据的一系列智能学习技术,在这之中,主题建模技术不但可以自动发现文本集主旨内容、相似词组、相似文档等人工难以实现的任务,而且已成为完成其它文本挖掘任务的重要手段。主题建模技术中仍存在大量待解决的问题,本文即关注主题建模技术在文本挖掘中的研究与应用。 本文首先关注的是多文本集环境下的主题建模技术。本文通过对主题建模机理的研究,识别出了导致主题建模结果不佳的一种重要类型的词语,称为主题模糊词。主题模糊词不能像停用词一样可以根据一张通用的停用词表删除,因为主题模糊词在每个文本集中因文本集主旨不同而不同,而且对于主题结果仍有一定的贡献。在第三章中,本文的目标即在于自动消除主题模糊词的影响。本文提出了主题模糊度这一指标,并分别在单文本集与多文本集环境下研究了其计算方法。在多文本集环境下,本文以波利亚桶为工具,提出了结合主题模糊度的主题模型,同时提出了支持可持续学习范式的迭代算法。本文在两个真实数据集上进行了主题模糊词辨识与主题结果生成等实验,实验结果表明本文提出的方法取得了显著的提升效果。 在第四章中,本文关注多文本集下的层次主题建模技术与知识的自动挖掘。层次主题建模技术不但可以发现主题,而且还可以将主题与词语按照所表达语义的宽泛程度组织成树状的层次结构。作为一种非参数贝叶斯学习问题,现有的层次主题建模方法得到的结果中会包含不合理的主题与层次结构。为解决这些问题,本文提出了基于知识的层次主题模型,并设计了自动的知识挖掘算法。可以从多文本集层次主题结果中挖掘共享的知识,并以波利亚桶为工具,利用这些知识得到更好的层次主题结果。本文还提出了一种支持可持续学习范式的迭代算法。本文收集了两个新的多文本集数据集,各包含20个文本集。本文在两个数据集上进行了充分的实验,实验结果表明,本文所提出的模型与算法显著提高了主题质量,并得到了结构合理的层次结构。 本文继而关注的是在个性化推荐中,主题建模技术在用户生成文本上的研究。现有的个性化推荐工作过于依赖以评分为代表的用户反馈记录。相比较于评分,评论、标签等用户生成文本可以承载更丰富的信息,不但可以反映用户喜好与物品特征,而且可以解释用户的购买行为。而现有的相关工作只关注一种类型的文本,失去了发现这些文本之间共同性质的机会。在第五章中,针对这些问题,本文将不同类型的用户生成文本组织成统一的形式,并利用主题建模技术,从用户生成文本中学习得到了物品的主题相似性与用户的主题相似性。继而,分别提出了针对物品与用户的基于主题的正则项,并以矩阵分解方法为工具,提出了两个新的推荐预测模型。在三个真实用户生成文本集上的实验表明了本文方法的有效性。 第六章中,本文继续关注主题建模技术在用户生成文本上的研究。针对第五章中所提出方法的缺点,本文基于协同主题回归方法,提出了一个完全贝叶斯生成模型,将用户主题生成、物品主题生成、用户对物品的评分预测三个任务统一到一个统计模型中,并给出了完整的模型生成过程。在模型中,不同类型的用户生成文本仍然以统一的形式利用。在参照已有模型解法的基础上,本文提出了一个综合变分推断、期望最大化与梯度下降的参数求解方法。在三个真实数据集上的实验,一方面表明了所提出的模型在评分预测上的有效性,另一方面也表明了模型在主题生成上的有效性。同时,本文还考察了在“冷启动”环境下模型的预测能力。多组参数敏感性实验也表明所提出的方法对参数取值的强适应性。 最后,总结了全文,并讨论了下一步的工作,包括多文本集环境下的非参数贝叶斯学习等。