论文部分内容阅读
社会化标签提供了一个新的角度理解本体。为了实现两者优势互补、共同发展,本文提出社会化标签的主题层次体系自动构建这一研究课题。旨在通过此课题的研究克服社会化标签的缺陷,缓解本体知识获取的瓶颈,并对类似的概念层次体系构建研究中存在共同难题的解决有所助益,是推动社会化标签和本体研究共同发展的有效途径。主题标签层次体系自动构建是自然语言处理、知识管理、语义网、数字图书馆等领域共同关注的核心问题,能够促进信息检索、机器翻译、自动问答、智能导航、推荐系统等相关研究的发展。本文的研究内容主要包括以下四个方面。首先,提出基于边权重的主题核心标签抽取方法,为后续主题标签层次体系的自动构建奠定了基础。基于社会化标签的语义关联特性,提出由具体主题的局部共现信息和所有主题的全局语义相似度共同构成的边权重。通过新颖的边权重,将传统的随机游走分解成不同主题对应的标签图中主题相关的随机游走,并输出按照重要性值排序的标签列表,排序靠前的标签被抽取为主题核心标签。实验结果表明,基于边权重的主题核心标签抽取方法优于相关工作。该方法不仅可以有效识别主题核心标签,还可以关联同一主题下最相关的标签。其次,提出结合偏好值的主题核心标签抽取方法,进一步提高了主题核心标签抽取的性能。提出新颖的偏好值,选择与给定主题最相关的标签。然后,通过边权重和偏好值的共同作用抽取出主题核心标签。同时,探索具有不同特点的社会化标签数据源克服单一数据源的局限性。在单一数据集和混合数据集上的综合实验说明,结合偏好值的主题核心标签抽取方法通过提高较为抽象标签的重要性级别,能够显著提高主题核心标签抽取的性能。同时证明,对方法的改进和对数据源的探索相结合是有效的。再次,提出基于多源异质证据的主题标签层次体系构建方法,层次化组织主题相关的标签和标签之间的关系。从具体领域的社会化标签数据源和领域无关的本体中设计和抽取多源异质证据,并提出新颖的分步结合策略,发挥不同证据的优势,分别用于初始主题标签层次体系构建和进一步主题标签层次体系修正。综合实验结果表明,基于多源异质证据的主题标签层次体系构建方法在自动构建主题标签层次体系方面表现出优异的性能,对比相关工作在召回率方面获得20%以上的提升。最后,提出基于主题标签层次体系的标签推荐方法,扩展了主题标签层次体系的评价应用。通过新颖的标签推荐策略,将主题标签层次体系应用到标签推荐中。一方面,通过主题标签层次体系提高标签推荐的性能,克服社会化标签的缺陷。另一方面,通过对标签推荐性能的评价,间接评价主题标签层次体系的质量。与相关工作和社会化标签数据来源网站的标签推荐结果对比表明,基于主题标签层次体系的标签推荐方法,能够有效促进标签推荐和主题标签层次体系评价研究的共同发展。综上所述,本文围绕社会化标签的主题层次体系自动构建这一课题,深入探讨了主题核心标签抽取,主题关系识别,主题标签层次体系构建、评价,标签推荐等问题。我们整理了本文的研究成果,希望可以对更多基于此类问题的研究与应用提供支持。