论文部分内容阅读
机器学习在多个领域得到广泛应用。随着计算能力的提高,使得贝叶斯网络这种学习方法成为研究的热点。生成式概率图模型是贝叶斯网络的特例。所谓的生成式模型是指其网络结构提供了一种自然的表示变量间因果关系的方式。生成式概率主题模型是以文本中的主题作为隐藏变量,以生成方式模拟文本的生成过程的贝叶斯图模型。它具有贝叶斯网络所拥有的不确定性知识表达形式、完备的概率解释、以及合理的计算学习机制的优点,能很好地处理带有隐藏变量的离散数据集。由于其模型结构合理,在文本模态处理中得到广泛应用。另外,通过适当的格式转化,其他模态的数据,比如图像、音频等也能很好地适用这种模型。
本文对生成式概率主题模型进行深入总结,并针对多种模态的离散数据,包括文本数据、图像数据集合,提出双模态概率主题模型。论文的主要工作和创新点总结如下:
1.总结了生成式概率主题模型的发展过程,重点关注了PLSA(ProbabilisticLatentSemanticAnalysis)和LDA(LatentDirichletAllocation)两种模型;分类总结了以其为基础的衍生模型;对分散于文献中的各种模型学习方法进行了整理和归类;按场景分类介绍了在多个领域的典型应用。为这一新兴研究方向的发展勾画出一个较为全面和清晰的概貌,为相关的研究者提供有益参考。
2.结合研究项目,开展分类知识发现研究。使用主题模型(LDA)和多分类支持向量机构建了一个分类器,实现安全漏洞信息的非监督分类,为核高基课题”开源操作系统内核分析和安全性评估”中“安全漏洞库建设,安全漏洞分类器的设计和实现”模块提供实验原型参考。
3.将概率主题模型运用于聚类知识发现。通过提取图像集合的特征符,构建视觉词汇表,使用PLSA模型学习获得图像的主题分布,实现从词汇空间向主题空间的转换,达到降维的效果。实验证明,在低维的主题空间中实行聚类,能有效的实现重复图片的检测。
4.对隐含语义分析模型(PLSA)进行扩展,提出一个新的模型,融合时间变量。将扩展后概率主题模型运用于时序与序列模式知识发现,实现图像集合的时序主题挖掘。
5.提出了将文本和图像两种模态综合的Bi-ModalLDA模型。用于模拟文本与图像两种模态信息的生成过程。相比原有的LDA模型,增加了一个新的变量vw,用于表示图像信息。通过模型的学习,可以获得vw和w相对于主题的条件分布。还提出了文本视觉词汇的概念,通过多核学习过程,将视觉词汇相对于主题的条件分布向量p(vw|z)以及文本词汇相对于主题的条件分布向量和p(w|z)组合在一起而生成。实验证明,Bi-ModalLDA主题模型能很好的发掘文本和图像特征符之间的关系,所生成的双模态文本视觉词汇比单模态的文本词汇、视觉词汇有更好的分类识别效果。