面向开放文本的领域实体标签库构建与评价方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:zhjkkcd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展,网络数据的规模呈现着爆炸式增长。如何从规模庞大的网络数据中快速获取高质量的知识是目前亟待解决的一大问题。为此,需要构建面向开放文本的领域知识库。构建面向开放文本的领域知识库旨在从开放文本中获取领域实体与实体间关联关系,是对开放文本中的数据进行结构化与体系化的一项重要技术。  领域实体标签库是领域知识库的一个重要组成部分。通过从开放文本中获取领域实体的标签来对领域实体进行精准而全面的刻画。例如视频领域,需要使用“唯美的画风”、“精彩的剧情”等领域标签来对视频实体进行描述。领域标签可以从多个角度对领域实体进行刻画,极大丰富了领域知识库,增添了领域知识库的全面性与实用性。本文研究了面向开放文本的领域实体标签库的构建方法,并针对此类领域实体标签库的构建技术提出了一个统一的、多维的量化评价方法。具体研究内容如下:  (1)我们提出了一种面向开放文本的领域实体标签抽取方法,该方法有效利用候选领域实体标签的字面特征、上下文特征、已有的背景知识对其进行词向量表示。然后利用候选领域实体标签与其词向量构造二部图。进而使用加权HITS算法计算领域实体标签的领域相关度。此方法将低频领域实体标签识别的召回率提高了10%。  (2)我们提出了一种领域实体标签的聚合方法,该方法通过情感一致性、字符串相似度、词语同义程度计算领域实体标签之间的相似度。通过构造标签相似度矩阵,对领域实体标签进行层次聚类,最终得到多个领域实体标签构成的簇及簇中心。此方法相较基于Word2Vec与同义词词林的层次聚类方法,领域实体标签聚合准确率平均提升20%。  (3)我们根据面向开放文本的领域实体标签库来源广、更新快、规模大的特点,提出了一套面向开放文本领域实体标签库构建技术的多维量化评价方法。首先综合了领域实体标签库构建过程中的标签抽取、实体-标签链接、标签聚合三大步骤计算领域实体标签库构建的准确率,并在考虑其构建时间与构建规模的基础上评估领域实体标签库构建的总体效果,提出了一套领域实体标签库构建技术的多维指标体系,并基于此体系提出了领域实体标签库构建技术的多维量化评价方法。实验表明本方法的评价结果较传统的评价方法更为全面和合理,并且可以根据实际应用中维度的重要性差异产生不同的评价结果。  根据本文提出的方法,我们在视频领域构建了面向视频领域的实体标签库。并搭建了面向视频领域的语义推荐与数据服务系统,进一步验证了该方法的有效性。
其他文献
该文类的数据流测试从以下两方面着手研究:(1)基于规范的类的数据流测试技术研究基子规范的测试就是利用软件的文档规范来产生测试用例的测试策略,从而可以揭示软件规范中存
传统的测试技术很少考虑由封装、继承、多态和动态绑定等面向对象新特性所带来的面向对象的错误.面向对象软件测试是在过程式软件测试的基础上引入面向对象程序的新特性而形
机房物理安全监控系统可对多(本次诊计为6个)个温度点进行温度测量,测温范围在—55℃—+125℃;可对四个房间、区域进行烟雾检测;可对一个220V不稳压电源及四个UPS电源进行掉
1982年粗糙集理论作为一种新的处理不确定和模糊问题的理论被波兰科学家 Z Pawlak提出。此后,粗糙集理论成了继证据论、模糊集论、概率论之后提出的又一个新的数学工具。粗糙
我们研究了一种基于socket进行网络传输的远程虚拟实验平台模型,主要分为学生客户端,服务器,教学管理客户端三个部分,三部分之间依靠阴socket和WEB方式来连接,它在实验仿真的
移动通信系统自从3G以来就进入了快速发展的时期。目前4G已经在全球范围内商用,5G也将在2020年完成标准化进程。5G中有许多新增的场景,例如虚拟现实和增强现实,这些新场景使得用
基于移动代理的企业级入侵检测体系结构(EMAIDA,EnterpriseMobile Agent Intrusion Detection Architecture)能提高等级式入侵检测系统的安全性.EMAIDA分析了等级式入侵检测
目前,在Internet与无线通信网等网络上的视频传输应用越来越广泛,也越来越深入,视频压缩编码技术也因此而成为该领域的研究重点之一。当前Internet与无线通信网等从网络技术的角
在当前信息快速发展的时代,各种移动设备层出不穷,应用种类繁多,各大互联网公司为了更好的提供服务,纷纷建立自己的数据中心。然而由于数据中心投入巨大,各大公司希望能够提高数据
目前国内外的学者对信用卡电子支付协议做了大量的研究,并且有了很多成果已经投入实际应用,比如SET协议等等.鉴于该课题是为了给精伦电子公用多业务终端信用卡支付提供一种解