利用元路径提升的专利无效对比文件判断方法研究

来源 :中国科学技术信息研究所 | 被引量 : 0次 | 上传用户:strongit_likai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
专利数量激增与专利审查资源紧缺的矛盾下催生知识产权领域对审查智能化的迫切需求,为了解决人工查找的有限性和现有的检索系统不完善等问题,本研究提出一种智能化的专利无效对比文件判断方法,从海量的专利文件中选取高度相关的对比文件,为相关从业者提供决策辅助。
  为了平衡专利所要求的技术公开和发明主体本能维护技术秘密的矛盾,专利中存在着一些独特语言现象,为专利无效对比文件判断带来了困扰。而传统基于专利文本相似度的检索系统难以解决这种问题。因此,本文在文本内容基础上结合了专利的题录信息,利用元路径将专利中结构化和非结构化信息有机串联起来,并将其与机器学习、Elasticsearch相集成以兼顾效率和效果。
  具体而言,本研究采用一种两阶段的方法解决问题。第一阶段运用Elasticsearch从候选集中快速召回候选文件,以缩小问题规模。为了提高召回率,一方面扩充召回结果的数量,即通过调整检索时的参数size;另一方面通过对业务逻辑的梳理,采取多种检索字段组合的检索策略。第二阶段通过机器学习中Learning to Rank策略对第一步召回的结果进行排序,在文本相似度的基础上引入了目标专利与对比文件之间的共现词汇、分类号、引证信息、专利权人等一系列元路径特征,最终获取对比文件的精排结果。实验结果表明,加入元路径的信息对于结果有较大的提升作用,k等于20时,R@k值提升了82.81%,明显优于只有文本相似度的基线方法。
  本文通过引入元路径的概念,虽然在一定程度上弥补了专利文本衡量相似度的不足,但是仍然有较大的改进空间,值得继续探索和研究,可以在优化数据集建构、补充更加丰富的特征、优化元路径特征选取方法、采用深度学习技术等方面进行下一步探索。
其他文献
科技型企业创新所具有的高成本、高风险的特点,决定了科技型企业成长的复杂性,分析并识别此类企业的成长性,即潜在竞争力成为技术竞争情报领域一个新兴的研究议题。企业提升潜在竞争力是为了在未来获得更强的市场竞争力和高额利润。本文在企业竞争力评价研究基础上,力图识别出牺牲短期利益获取潜在竞争优势的科技型企业的未来财务绩效和市场发展规律,旨在更好的实现对企业未来竞争力的预测。  首先,系统梳理国内外研究文献,
随着科研创新活动综合性和复杂性的提高,单一主体很难掌握全部的创新资源,为了弥补资源差异,实现创新资源的优化配置及优势互补,科研创新合作成为科学研究发展的必然趋势。由于地理位置差异等原因,不同区域对创新资源的掌握程度有所差异,区域间创新合作对分摊创新成本、推动资源流通、提高成果质量具有重要作用。粤港澳大湾区作为我国科技创新发展的高地,对国家乃至全球的科技发展和经济发展起着至关重要的作用,对其创新合作
学位
新能源事关我国能源绿色低碳转型、应对气候变化及生态文明建设的成败。当前各国都积极部署并研究新能源,抢占新能源技术创新的制高点。研究新能源企业技术创新能力,对于加快我国低碳转型、有效应对气候变化和推动生态文明建设具有重要的理论与现实意义。  本文在文献调研的基础上,初步构建了涵盖专利积累、专利价值、专利潜力和研发稳定性的专利指标评价框架,并以光伏企业为例,依托德温特创新索引数据库,制定检索策略,获取
湾区是带动全球经济发展的重要增长极和技术革新的主要发源地。目前世界知名的湾区主要有旧金山湾区、纽约湾区和东京湾区。我国于2019年发布《粤港澳大湾区发展规划纲要》,将粤港澳大湾区的建设上升到国家战略,也为“一国两制”提供新的实践参考。本文以纽约湾区、旧金山湾区、东京湾区和粤港澳大湾区作为研究对象,测算四个湾区的创新绩效,并进行对比分析,借鉴世界三大湾区的科技创新规划和资源配置经验,以提高粤港澳大湾
学位
科技资源是科技创新的重要物质基础,充分有效地利用各类科技资源对于提升研发水平,增强科技创新能力有着重大作用。当前我国科技资源服务取得了一定的成效,但仍然存在着服务方式单一、服务不便利等问题,不利于科技资源的利用。本文通过对分布式科技资源服务模式的研究,旨在促进科技资源服务效率的提高,使服务更加便利。  全文分为七部分。第一部分介绍了本研究的研究背景、研究意义和研究思路;第二部分介绍了科技资源服务的
学位
2018年科技部等五部门发文展开清理“唯论文”、“唯职称”、“唯学历”、“唯奖项”专项行动,“四唯”问题成为科学界普遍关心的问题。本研究主要从多样性视角出发,对科技计划项目产出的状态和特征进行分析,尝试为进一步明确科学的科技计划产出体系目标,提升产出质量和效益,为未来的科技计划资助产出结构调整和优化评估方法提供参考,并为优化科技计划布局、提升科技计划项目过程管理水平提供参考。  本文首先对相关研究
基础研究是创新之源、强国之基。随着基础研究在国家发展中占据越来越重要的地位,国家之间的竞争逐渐向前端转移到基础研究领域。基础研究经费投入是基础研究活动的物质保障,基础研究经费投入强度指国家基础研究经费投入与国内生产总值的比值。目前,主要科技创新型国家的基础研究经费投入强度一般在0.3%以上,而中国2018年基础研究经费投入强度为0.12%,相比差距较大。基础研究经费应该投入多少,需要考虑多方面因素
现有文献的分类标引多采用《中图法》。在文献出版量飞速增长的背景下,完全依靠人工进行文献标引已经不可行,通过文本自动分类算法实现机器标引变得非常必要。然而,中图分类体系下存在数据不平衡现象。这影响了现有分类算法的性能,难以达到理想的标引效果。  为改善非平衡数据下分类标引的效果,从数据层面与算法层面相结合的角度提出一种标引方法。在数据层面上,利用LSTM模型为少数类补充样本数据。该方法首先利用类名和
学位
我国源远流长的历史,为后人留下了卷帙浩繁的古文典籍。这些古文献不但具有极高的文学价值,还可以传播历史信息从而兼具历史价值。用机器来实现古文今译,不仅可以跨越古今之间的语言鸿沟,还有助于传递古文献中蕴含的历史知识和文化信息,为古文外译提供重要的参考,促进中华文化走向世界。  在已有的古文机器翻译研究中,多数的研究着力于古文到现代文之间平行语料库的构建,以及将各种机器翻译模型应用在古文到现代文的翻译,
学位
多源异类的科技资源松散孤立,缺少有效地互通协调和配置管理,导致“资源孤岛”现象产生,不利于科技资源协同服务的发展,通过元数据对科技资源关联聚合是有效的途径之一。本文的目的是研究如何基于元数据有效关联聚合科技资源,主要从外部特征、内容特征以及共享特征三个关联维度出发。  本文首先概述国内外科技资源元数据以及科技资源关联聚合相关研究的发展情况,指出目前科技资源关联聚合存在的不足,并总结归纳基于元数据关
学位