生成式概率主题模型关键技术研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:mchz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习在多个领域得到广泛应用。随着计算能力的提高,使得贝叶斯网络这种学习方法成为研究的热点。生成式概率图模型是贝叶斯网络的特例。所谓的生成式模型是指其网络结构提供了一种自然的表示变量间因果关系的方式。生成式概率主题模型是以文本中的主题作为隐藏变量,以生成方式模拟文本的生成过程的贝叶斯图模型。它具有贝叶斯网络所拥有的不确定性知识表达形式、完备的概率解释、以及合理的计算学习机制的优点,能很好地处理带有隐藏变量的离散数据集。由于其模型结构合理,在文本模态处理中得到广泛应用。另外,通过适当的格式转化,其他模态的数据,比如图像、音频等也能很好地适用这种模型。   本文对生成式概率主题模型进行深入总结,并针对多种模态的离散数据,包括文本数据、图像数据集合,提出双模态概率主题模型。论文的主要工作和创新点总结如下:   1.总结了生成式概率主题模型的发展过程,重点关注了PLSA(ProbabilisticLatentSemanticAnalysis)和LDA(LatentDirichletAllocation)两种模型;分类总结了以其为基础的衍生模型;对分散于文献中的各种模型学习方法进行了整理和归类;按场景分类介绍了在多个领域的典型应用。为这一新兴研究方向的发展勾画出一个较为全面和清晰的概貌,为相关的研究者提供有益参考。   2.结合研究项目,开展分类知识发现研究。使用主题模型(LDA)和多分类支持向量机构建了一个分类器,实现安全漏洞信息的非监督分类,为核高基课题”开源操作系统内核分析和安全性评估”中“安全漏洞库建设,安全漏洞分类器的设计和实现”模块提供实验原型参考。   3.将概率主题模型运用于聚类知识发现。通过提取图像集合的特征符,构建视觉词汇表,使用PLSA模型学习获得图像的主题分布,实现从词汇空间向主题空间的转换,达到降维的效果。实验证明,在低维的主题空间中实行聚类,能有效的实现重复图片的检测。   4.对隐含语义分析模型(PLSA)进行扩展,提出一个新的模型,融合时间变量。将扩展后概率主题模型运用于时序与序列模式知识发现,实现图像集合的时序主题挖掘。   5.提出了将文本和图像两种模态综合的Bi-ModalLDA模型。用于模拟文本与图像两种模态信息的生成过程。相比原有的LDA模型,增加了一个新的变量vw,用于表示图像信息。通过模型的学习,可以获得vw和w相对于主题的条件分布。还提出了文本视觉词汇的概念,通过多核学习过程,将视觉词汇相对于主题的条件分布向量p(vw|z)以及文本词汇相对于主题的条件分布向量和p(w|z)组合在一起而生成。实验证明,Bi-ModalLDA主题模型能很好的发掘文本和图像特征符之间的关系,所生成的双模态文本视觉词汇比单模态的文本词汇、视觉词汇有更好的分类识别效果。
其他文献
随着国家将新能源汽车产业作为未来的战略性新兴产业,各大央企开始登陆抢占电动汽车市场,并迅速在各大城市部署架设电动汽车快速充换电加电站网络。加电站网络规模在不断扩大
随着科学计算在应用数量上以及规模上的快速发展,封闭于单一组织的超级计算机已经难以满足科学家们的需求。随着互联网基础设施的不断完善,跨越多组织、多管理域的多机群共享与
现如今软件系统需要不断地进行演化以适应外部环境和用户需求的频繁变化,软件演化已成为软件系统整个生命周期的重要形态之一。因此,在软件需求分析开始时就考虑支持软件演化
学位
近年来,随着信息化与数字化的发展,广告业也有了天翻地覆的变化。而随着互联网的愈发普及,网络广告已经成为了广告业中的重要主体。通过传统的静态投放方式,巨大的投放费用无法换
目前,在儿童的教育方面过于偏重分数,普遍存在素质教育缺失的问题。大多数的儿童都是独生子女,与他人的协作沟通能力欠缺,可能导致将来难以融入社会。而音乐教育尤其是合奏教育,对
随着“互联网+”概念的提出,社会网络势必将渗透人们生活工作中的点点滴滴,与此同时,社会网络中的信息复杂度也将膨胀式增长。如何评判社会网络中用户的行为,从复杂网络中对行为
近年来,随着无线通信技术的迅速发展,车载自组织网络(Vehicular Ad-hoc Network,简称VANET)逐渐成为一个重要的研究领域,受到学术界和工业界的瞩目,基于车载网可以开发多种应用如
化学反应启发式优化算法(Chemical Reaction Optimization,CRO)是近年来提出的一种新型演化算法。其已在诸多领域展示了解决NP完全问题的强大能力。本文以化学反应优化算法这
大屏幕交互在会议、演讲、火车站、博物馆等场合扮演着很重要的角色,在这些不同于以往桌面交互的新交互场景中,用户多需要站在一定距离之外与大屏幕交互,整个交互过程没有支撑平