层次标签数据的主题模型优化问题研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:daren19112879
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,出现了大量带有层次标签的数据,如网页和网页对应的目录结构、产品描述和对应的目录、以及名词解释和对应的层次结构等。对于这类带有层次标签的数据,如何进行主题建模(topic modeling)是目前学术界关注的一个重要而有挑战的问题。主题建模就是要探索某个文档集合的内在规律,具体地是去描述文档集合中的每个文档时如何生成出来的,通俗来讲,即是要探索某个文档集合中包含有哪些主题以及这些主题之间的关系。这个研究问题之所以重要,是因为对于带有层次标签的数据,如果能够很好地通过一个主题模型得到隐藏在这个数据集合背后的主题或者主题结构,那么就可以通过这些主题信息帮助诸如摘要(summarization)、检索模型、分类浏览和组织数据等各种其它研究任务。  在本文,我们将首先研究带有层次标签数据的主题建模问题。首先我们回顾了现有的对带有层次标签数据进行主题建模的主题模型存在的缺点,然后提出融入先验信息的主题模型去克服现有层次主题模型的缺点。然而,无论是已有模型,还是融入先验信息的模型,其基本假设都有不太合理的地方,只能部分地刻画数据的性质,因此我们提出了新的假设,使得建立在新假设基础上的主题模型能够垂直扩展和水平扩展地发现更多的隐藏主题,从而克服现有模型存在的缺点,进而得到更能刻画层次标签数据本质的主题模型。  一个主题(topic),是词集合上的一个多项式概率分布。如何简洁和直观地让用户理解这个主题的内在含义,是一个重要的研究工作,目前主要是通过赋予标签(topic labeling)的方法来解决这个问题。在通过上述提出的主题模型获得一棵层次主题树之后,这些主题呈现了不同的性质,即在这些主题之间不再是毫无关系的,而是存在父子和兄弟关系,如何去解释这棵主题树也是一个充满挑战和待解决的问题。在本文,我们将通过考虑节点之间的父子和兄弟关系来提高赋予标签的准确性。具体来讲,一方面是通过定义启发式规则来刻画主题节点之间的父子和兄弟关系,从而提高赋予标签的准确性;另一方面,我们充分利用已有的层次本体知识库,来帮助提高赋予标签的准确性。  本文具体工作和创新性如下:  1.本文首先提出了一个融入先验信息的主题模型Prior-hLLDA,去克服已经存在的主题模型hLLDA的缺点;hLLDA存在两个缺点:(i)所有的主题节点具有同等的重要性;(ii)文档不能位于非叶子的标签节点下,这两个缺点和实际情况不是很符合,所以我们提出了一个能够克服这两个缺点的主题模型;并且提出了一个吉布斯采样算法去估计模型的参数。  2.本文提出了一个新的半监督层次主题模型SSHLDA,它能够克服已有的模型hiLDA以及Prior-hiLDA的不足之处。无论hLLDA还是Prior-hLLDA都有一个基本假设,即认为一个带有层次标签的数据集合只包含这些标签所对应的主题和主题结构,然而这个假设不是很合理,因为通常在层次标签树的叶子节点还可以继续进行划分,能够拥有更多的隐藏主题。因此,为了能够更加准确地刻画带层次标签的数据,我们提出了一个能够垂直扩展的主题模型,它除了能够发现数据集合中对应于层次标签的主题之外,还能发现位于叶子节点之下的更多的隐藏主题。同时,我们提出了一个吉布斯采样算法去估计模型的参数。  3.本文提出了一个新的半监督层次主题模型HEHLDA,它不仅能够发现位于叶子标签节点之下的隐藏主题,还能够发现非叶子标签节点的兄弟节点或者儿子节点,这里我称之为具有水平扩展的能力。因为很多的时候,除了层次标签数据之外,我们还有不带标签的数据,然而我们需要把这两类数据中的主题集成起来成为一个完整的主题结构,所以我们需要把不带标签的数据中的主题放在层次标签数据的主题结构中,这时候需要水平扩展,为此我们提出了一个新的主题模型来解决这个问题,同时提出了一个吉布斯采样算法去估计模型的参数。  4.本文提出了两种新的利用主题之间关系来给主题进行赋予标签(topiclabeling)的算法。因为一个主题是一个词的分布,这对于人来说是较为难于理解的,通常人们采用给一个主题赋予一个人能够理解的标签来解决这个问题,然而之前的算法没有考虑主题之间的关系,只是简单地为每一个主题进行赋予标签,在本文,我们提出了两种利用主题之间的关系,即父子关系和兄弟关系,来提高为主题赋予标签的性能,实验取得了很好的效果。  通过上述的研究工作,我们发现:  1.在主题建模过程中,先验信息对于提高主题建模的效果很有帮助;例如Prior-hLLDA模型充分体现了先验信息对于主题建模的重要性。  2.在主题建模过程中,半监督学习比无监督学习和有监督学习效果都要好,因为半监督学习一方面充分利用了已知信息来指导主题建模,另外一方面又充分利用了无监督学习的灵活性来降低人工参与主题建模的工作量。例如SSHLDA和HEHLDA两个半监督的主题模型,其效果比有监督的主题模型hLLDA和Prior-hLDA效果好,同时也比无监督的主题模型hLDA效果好,充分体现了半监督学习在主题建模过程中的有效性。  3.在给主题赋予标签的过程中,主题之间的关系提供了全局的信息,从而能够帮助提高给主题赋予标签的性能,即能够达到全局较优解。而如果不考虑主题之间的关系,单独地给一个主题赋予标签,很大可能只能得到局部最优解。因此考虑主题之间的关系,对于提高主题标签赋予的性能十分重要。
其他文献
作为一种开放的业务提供方式,Web服务已经得到了工业界和学术界的广泛承认。随着Web服务技术的发展和成熟,越来越多的业务提供者以Web服务的形式提供服务。然而,单一的Web服
宇宙线是来自宇宙深处的高能粒子流,作为信息的载体,能够让人类更加清晰完整地了解未知的宇宙起源之谜,是研究暗物质、暗能量、反物质、重力波等重大科学前沿的基础。切伦科夫探
在移动通信技术快速发展的今天,LTE(Long Term Evolution)作为3G向4G演进的主流标准而备受关注。由于现今GSM(2G)通信系统占全球通信市场绝大部分,无论从成本或者基础通信系统
近几年,Hadoop以其低成本、高容错、易编程的优势得到广泛应用,同时,Hive作为目前最成熟、应用最广泛的数据仓库工具,可以将SQL语句转换为MapReduce任务运行。因此,在互联网企业中
该文工作以国空"九五"重点科技攻关专题"基于构件/构架模式的应用软件集成环境-JBⅢ系统"为背景.青鸟Ⅲ型系统的核心子系统是青鸟构件库管理系统,由可复用构件库和构件库管理
从二十世纪五十年代用户界面出现至今,用户界面的发展经历了三次演变:批处理界面、命令行界面和WIMP(Window,Icon,Menu,Pointing Device)界面。由于WIMP界面与以前的界面风格相比
目前全国各高校均已建成基于Web的校园信息发布平台、教务信息管理平台。教师和学生可以很方便的基于这些平台收发通知、学习网络课程,管理课程等,但是在考试、出卷、试卷分析
元数据,作为描述数据的数据,是机群文件系统的重要组成部分。元数据服务的高可用对于降低元数据服务器异常宕机对正常应用的影响具有十分重要的意义。然而,现有的典型机群文件系
Web服务是松散耦合的,可复用的软件模块,是一种在XML基础上发展起来的分布式计算技术,是一种新的网络服务,其目的是为在Internet上不同操作系统、硬件平台和编程语言间集成应用软
随着多媒体技术的发展和移动数码设备的普及,图像渐渐地成为了人们获取信息和传播信息的主要载体。目前大部分数字图像的采集方式都是基于以香农-那奎斯特采样定理为基础的信