论文部分内容阅读
随着互联网的迅猛发展,出现了大量带有层次标签的数据,如网页和网页对应的目录结构、产品描述和对应的目录、以及名词解释和对应的层次结构等。对于这类带有层次标签的数据,如何进行主题建模(topic modeling)是目前学术界关注的一个重要而有挑战的问题。主题建模就是要探索某个文档集合的内在规律,具体地是去描述文档集合中的每个文档时如何生成出来的,通俗来讲,即是要探索某个文档集合中包含有哪些主题以及这些主题之间的关系。这个研究问题之所以重要,是因为对于带有层次标签的数据,如果能够很好地通过一个主题模型得到隐藏在这个数据集合背后的主题或者主题结构,那么就可以通过这些主题信息帮助诸如摘要(summarization)、检索模型、分类浏览和组织数据等各种其它研究任务。 在本文,我们将首先研究带有层次标签数据的主题建模问题。首先我们回顾了现有的对带有层次标签数据进行主题建模的主题模型存在的缺点,然后提出融入先验信息的主题模型去克服现有层次主题模型的缺点。然而,无论是已有模型,还是融入先验信息的模型,其基本假设都有不太合理的地方,只能部分地刻画数据的性质,因此我们提出了新的假设,使得建立在新假设基础上的主题模型能够垂直扩展和水平扩展地发现更多的隐藏主题,从而克服现有模型存在的缺点,进而得到更能刻画层次标签数据本质的主题模型。 一个主题(topic),是词集合上的一个多项式概率分布。如何简洁和直观地让用户理解这个主题的内在含义,是一个重要的研究工作,目前主要是通过赋予标签(topic labeling)的方法来解决这个问题。在通过上述提出的主题模型获得一棵层次主题树之后,这些主题呈现了不同的性质,即在这些主题之间不再是毫无关系的,而是存在父子和兄弟关系,如何去解释这棵主题树也是一个充满挑战和待解决的问题。在本文,我们将通过考虑节点之间的父子和兄弟关系来提高赋予标签的准确性。具体来讲,一方面是通过定义启发式规则来刻画主题节点之间的父子和兄弟关系,从而提高赋予标签的准确性;另一方面,我们充分利用已有的层次本体知识库,来帮助提高赋予标签的准确性。 本文具体工作和创新性如下: 1.本文首先提出了一个融入先验信息的主题模型Prior-hLLDA,去克服已经存在的主题模型hLLDA的缺点;hLLDA存在两个缺点:(i)所有的主题节点具有同等的重要性;(ii)文档不能位于非叶子的标签节点下,这两个缺点和实际情况不是很符合,所以我们提出了一个能够克服这两个缺点的主题模型;并且提出了一个吉布斯采样算法去估计模型的参数。 2.本文提出了一个新的半监督层次主题模型SSHLDA,它能够克服已有的模型hiLDA以及Prior-hiLDA的不足之处。无论hLLDA还是Prior-hLLDA都有一个基本假设,即认为一个带有层次标签的数据集合只包含这些标签所对应的主题和主题结构,然而这个假设不是很合理,因为通常在层次标签树的叶子节点还可以继续进行划分,能够拥有更多的隐藏主题。因此,为了能够更加准确地刻画带层次标签的数据,我们提出了一个能够垂直扩展的主题模型,它除了能够发现数据集合中对应于层次标签的主题之外,还能发现位于叶子节点之下的更多的隐藏主题。同时,我们提出了一个吉布斯采样算法去估计模型的参数。 3.本文提出了一个新的半监督层次主题模型HEHLDA,它不仅能够发现位于叶子标签节点之下的隐藏主题,还能够发现非叶子标签节点的兄弟节点或者儿子节点,这里我称之为具有水平扩展的能力。因为很多的时候,除了层次标签数据之外,我们还有不带标签的数据,然而我们需要把这两类数据中的主题集成起来成为一个完整的主题结构,所以我们需要把不带标签的数据中的主题放在层次标签数据的主题结构中,这时候需要水平扩展,为此我们提出了一个新的主题模型来解决这个问题,同时提出了一个吉布斯采样算法去估计模型的参数。 4.本文提出了两种新的利用主题之间关系来给主题进行赋予标签(topiclabeling)的算法。因为一个主题是一个词的分布,这对于人来说是较为难于理解的,通常人们采用给一个主题赋予一个人能够理解的标签来解决这个问题,然而之前的算法没有考虑主题之间的关系,只是简单地为每一个主题进行赋予标签,在本文,我们提出了两种利用主题之间的关系,即父子关系和兄弟关系,来提高为主题赋予标签的性能,实验取得了很好的效果。 通过上述的研究工作,我们发现: 1.在主题建模过程中,先验信息对于提高主题建模的效果很有帮助;例如Prior-hLLDA模型充分体现了先验信息对于主题建模的重要性。 2.在主题建模过程中,半监督学习比无监督学习和有监督学习效果都要好,因为半监督学习一方面充分利用了已知信息来指导主题建模,另外一方面又充分利用了无监督学习的灵活性来降低人工参与主题建模的工作量。例如SSHLDA和HEHLDA两个半监督的主题模型,其效果比有监督的主题模型hLLDA和Prior-hLDA效果好,同时也比无监督的主题模型hLDA效果好,充分体现了半监督学习在主题建模过程中的有效性。 3.在给主题赋予标签的过程中,主题之间的关系提供了全局的信息,从而能够帮助提高给主题赋予标签的性能,即能够达到全局较优解。而如果不考虑主题之间的关系,单独地给一个主题赋予标签,很大可能只能得到局部最优解。因此考虑主题之间的关系,对于提高主题标签赋予的性能十分重要。