论文部分内容阅读
在创新驱动的第四次工业革命背景下,我国正加快脚步推动创新型国家的建设,积极鼓励大众和企业在各自领域内创新。大众在创新的同时需要借阅大量相关领域研究的知识和技术。掌握相关领域当前技术的发展状况和创新是把握当下热点的前提。如果想在本领域获得创新,那么通过专利了解前沿技术十分重要。专利既是科学技术先进成果的风向标,同时又是前沿知识的载体,促使企业、高校等技术创新者不断提高自身能力,完善技术体系。随着国家积极提倡大众创新、创新驱动发展的影响,我国每年的专利数量也在迅速增长。面对如此庞杂的信息来源,企业和创新人才如何有效的获得相关知识成为值得我们思考的问题。在海量的数据中,有效的将专利领域的信息分类可以使得企业和高校的创新人才准确地从大量文本数据中获得自己想要的信息。因此,高效准确的信息分类可以大大减少大众科学技术信息搜索时间,提高检索效率。专利是代表科学技术发展进程的标签,我国当前积极鼓励各企业和高校科研人员积极创新。如何在众多种类的专利中高效的搜索到有利的专利信息是当前面临的主要问题。本文构建面向专利领域的知识图谱,通过不同专利的关联关系网中的结构化关系,找到相同类别专利之间的联系。将专利分类的任务转化为专利摘要的短文本分类的任务,从而借助专利知识图谱的结构化特征改进了分类效果。本文对分类效果进行改进做了如下研究:1.构建专利领域的知识图谱框架。本文首先构造了领域本体,并完成了知识图中数据模式的定义。其次,通过分析专利数据的特征,定义专利知识图谱的实体,并提取实体属性。最后,手动定义实体之间的关系。2.扩展专利摘要短文本特征。本文通过改进的TextRank算法抽取关键词、借助OwnThink知识图谱扩充关键词的同义词与上下位词。3.基于专利知识图谱的TextCNN算法改进。在本文中,通过扩展文本特征,使用TransE模型表示学习所构建的专利知识图谱中的实体和关系,专利语义信息被表示为密集的低维实值向量。本文在对TextCNN算法进行实验时,将专利向量在TextCNN算法的输入向量矩阵经过池化层后输出的特征向量进行拼接,扩充文本特征以提高TextCNN算法的准确率。4.本文建立了基于专利知识图谱的专利语义检索平台。该平台是本文构建的专利知识图谱的实际应用。专利分类通过改进的TextCNN文本分类算法自动分类。同时,该平台还设计了专利检索,专利分类检索,知识图谱管理,专利管理等功能模块。实验证明,本文对专利关键词提取,借助OwnThink知识图谱查找相关词,结合专利、作者、申请人等实体构建专利知识图谱,增加了语句上下文关联性。在对专利构建知识图谱的基础上,文本分类算法的准确率和召回率有明显的提升。与此同时,实现了基于知识图谱的专利语义检索系统,精确的分类,对大众和企业在科学技术创新道路上提供了指引,提高创新人才的检索效率,大大缩减在相关科学技术知识储备上所需要的时间。