论文部分内容阅读
随着互联网技术的迅速发展,网络数据的规模呈现着爆炸式增长。如何从规模庞大的网络数据中快速获取高质量的知识是目前亟待解决的一大问题。为此,需要构建面向开放文本的领域知识库。构建面向开放文本的领域知识库旨在从开放文本中获取领域实体与实体间关联关系,是对开放文本中的数据进行结构化与体系化的一项重要技术。 领域实体标签库是领域知识库的一个重要组成部分。通过从开放文本中获取领域实体的标签来对领域实体进行精准而全面的刻画。例如视频领域,需要使用“唯美的画风”、“精彩的剧情”等领域标签来对视频实体进行描述。领域标签可以从多个角度对领域实体进行刻画,极大丰富了领域知识库,增添了领域知识库的全面性与实用性。本文研究了面向开放文本的领域实体标签库的构建方法,并针对此类领域实体标签库的构建技术提出了一个统一的、多维的量化评价方法。具体研究内容如下: (1)我们提出了一种面向开放文本的领域实体标签抽取方法,该方法有效利用候选领域实体标签的字面特征、上下文特征、已有的背景知识对其进行词向量表示。然后利用候选领域实体标签与其词向量构造二部图。进而使用加权HITS算法计算领域实体标签的领域相关度。此方法将低频领域实体标签识别的召回率提高了10%。 (2)我们提出了一种领域实体标签的聚合方法,该方法通过情感一致性、字符串相似度、词语同义程度计算领域实体标签之间的相似度。通过构造标签相似度矩阵,对领域实体标签进行层次聚类,最终得到多个领域实体标签构成的簇及簇中心。此方法相较基于Word2Vec与同义词词林的层次聚类方法,领域实体标签聚合准确率平均提升20%。 (3)我们根据面向开放文本的领域实体标签库来源广、更新快、规模大的特点,提出了一套面向开放文本领域实体标签库构建技术的多维量化评价方法。首先综合了领域实体标签库构建过程中的标签抽取、实体-标签链接、标签聚合三大步骤计算领域实体标签库构建的准确率,并在考虑其构建时间与构建规模的基础上评估领域实体标签库构建的总体效果,提出了一套领域实体标签库构建技术的多维指标体系,并基于此体系提出了领域实体标签库构建技术的多维量化评价方法。实验表明本方法的评价结果较传统的评价方法更为全面和合理,并且可以根据实际应用中维度的重要性差异产生不同的评价结果。 根据本文提出的方法,我们在视频领域构建了面向视频领域的实体标签库。并搭建了面向视频领域的语义推荐与数据服务系统,进一步验证了该方法的有效性。