IPC自动分类技术的研究与应用

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:YOLANDA123456789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:借助IPC分类分析算法,对全文专利文献结构中几个重要单元段落的技术含量评估,来观测每个单元段落其技术含量对专利文献分类的贡献,从而有针对性地调整有效的专利自动分类分析源。避免专利自动分类盲目大数据量运算导致专利自动分类效率降低。本文对专利自动分类选择何种数据源和代价以及制定算法策略具有指导意义。
  关键词:IPC分类;分类表;TF-IDF;相似度算法;文献结构;技术分布分析;
  中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)03-0215-04
  笔者从事专利自动化项目开发和维护廿余年,一直以为对专利文献有一定程度的了解,谈到专利的技术构成会未假思索地沿用前人的结论:专利文献技术的构成主要由发明名称、摘要、技术领域和权利要求等重要段落基本可以确定。甚至,对权利要求书毫不犹豫推为主选。直至最近通过笔者的一系列分析研究实验,见到实验数据结果后,才真正完全彻底地颠覆了从前的认识。笔者公开这一分析与公众分享,请方家指正,亦即本文的目的。
  1 实验背景及方法
  本文在自主完成分词技术的研究[1][2]和专利“标题 摘要”辅助自动分类算法研究[3]的基础上,对专利文献层次结构展开进一步单项分析。参见图1专利文献层次结构分析流程图:
  1.1 专利文献的层次结构
  专利文献主要分为专利著录项目、专利说明书和专利的权利要求书。
  其中专利著录项目包括:专利公布的文献号、公布日期、ipc技术领域分类、发明名称、摘要和其他权利人相关的信息、在先申请信息等。这里与技术特征相关的段落主要是:ipc技术领域分类、发明标题和摘要。
  专利说明书包括:发明名称、技术领域、背景技术、发明内容及其有益效果、实施方法及其附图等。笔者将其中发明内容和有益效果被看作发明内容整体来考虑,且与专利文摘抽象的构成要素密切相关。这里与技术特征相关的段落主要是:技术领域、背景技术和发明内容。
  权利要求:主要包括独立的权利要求和从属权利要求等详细描述。当发明内容过于庞杂时专利文摘的抽象的构成要素过于分散,同时伴随的权利要求书也可能会非常庞杂,不容易抓出重点。通常专利文摘会以首个独立的权利要求构成专利文摘的抽象要素,然后辅以其他权利要求的概括性综述。亦即,专利自动文摘技术通常是以发明内容或首个独立权利要求及其他综述为依据连同发明的有益效果等抽象要素构成专利文摘。
  专利文献与技术相关领域相关的段落总体可以概括为:Ipc、发明名称、摘要、技术领域、背景技术、发明内容、权利要求书。其中发明内容属于大信息量描述,由多达200个段落,个别段落超过600汉字的内容构成超大单元模块。
  1.2 专利文献的层次结构解析
  专利文献的解析工作主要是从专利文献电子文档中获取层次结构中上述最主要技术代表的7个部分。
  通常将不包括ipc在内的6个单元模块连同整个文献,分别作分词分解,然后与IPC分类表技术要素,通过数学模型TF-IDF等算法进行要素可计算性计算,分别给出ipc分数排名。最后通过查看专利文献中的ipc分类在每个单元段落解析ipc排名中的位置,通常关注前几项排名,例如前三项排名,是否命中,来判断其收敛性。由于专利文献的具象复杂性与专利分类表抽象的术语之间存在差异,其解决办法在文献[3]中,主要采用同义词库上位词或线索词来建立沟通机制。这样,就会大大解决了命中率和收敛性问题。但是,这样也会掩盖了技术要素分类的真实性。因此,本文拒用同义词库参与实验,目的是尽量还原其原生态现象,来观测其各个单元段落部分的技术构成。从而再现所抽样的文献的主要技术分布情况。
  2 实验数据分析
  限于篇幅,通过对参与实验抽样得到的22篇专利文献电子文档2013***** ***new.xml,进行解析,得到各个单元模块的ipc细目(H99Z 9/99),ipc到大组(H99Z 9/),ipc到小类(H99Z)的首度出现排名位置,用{ H99Z 9/99排名,H99Z 9/排名,H99Z排名}表示。其中不以实际ipc为参照,主要检测ipc到大组的排名位置,亦即,H99Z 9/的排名作为命中目标的参照。数据中排名位置是从0开始的。-1代表没有找到或者50名位置以后的,表示发散。例如:{0,0,0}表示三者都排在首位,绝对命中。参见《技术分类排名明细表》表1
  分析排名分段分别为:(1)0-2,前三名;(2)3-6,次4名;(3)7-9,后三名。得到《技术分类排名统计表》,参见表2。
  通过数据分析,已知,发明内容和全文属于文献大信息量单元模块。标题、文摘、技术领域、技术背景、权利要求属于小信息量单元模块。
  排名前三的精确命中依次为:
  技术背景、文摘 > 全文 > 标题、发明内容 > 技术领域、权利要求
  排名前七的模糊命中依次为:
  全文>发明内容>文摘、技术背景>标题、技术领域、权利要求
  排名前十的模糊命中依次为:
  全文>技术背景>发明内容>文摘>技术领域、权利要求>标题
  对于组合情况而言:
  以小数据量组合在一起的:发明名称、摘要、技术领域、背景技术和权利要求书。其中权利要求书影响力不大,且被前4项冗余。而前4项之间具有互补性。其中背景技术以技术领域作补充;摘要以发明名称作补充;背景技术 技术领域又以摘要 发明名称作补充。其影响力依次为:背景技术、技术领域、摘要、发明名称。
  以大数据量组合在一起:全文和发明内容,两者具有互补。
  小信息量组合与大信息量组合进行对比,参见表3小信息量与大信息量段落的组合对比统计表:
  小信息量组合要强于大信息量组合。请再仔细回看表1,甚至完全覆盖。   因此,对于自动分类来说,选择文摘和技术背景为主,标题和技术领域作补充。可作为最优选择方案。
  如果是自动分类候选ipc方案,可以采用依次背景技术、技术领域、摘要、发明名称ipc排名前三名甚至前两名。可供选择的数据量为(3*4=)12个ipc或(2*4=)8个ipc,其中或有重复的ipc。其对应的ipc大组,即H99Z 9/具有(15/22=)68.2%的概率(参见表1),并可出现在其狭小选择范围内。其选择的目标范围已经大大缩小。其中还有相当多的是重复的和主ipc或者相关ipc。该算法结合同义词库或者提供线索词方法可以大大提高自动分类的命中率和收敛范围。
  3 实验结论
  通过解析专利文献结构段落的技术含量,不难得出这样一个结论:专利文献技术的构成完全可以通过小信息量的段落解析运算来进行有效地可计算性判断。可以避免使用全文或者冗长的发明内容的大数据量计算解析来获得判断。将主要精力依次放在背景技术、技术领域、摘要、发明名称等小信息量便可容易获得,其计算量也不会太大。
  另外,最值得注意的是,一个颠覆人们习惯认知,即普遍认为:专利领域和权利要求书是用于描述和反映专利技术特征及其领域的最主要单元模块,标题也非常重要。而在实际文献撰写中发明人最缺乏表现力的恰恰是人们通常认为最重要的那些单元段落部分。事实完全与人们预期的截然相反。分析数据表明,标题、专利领域和权利要求书,对判断文献技术领域自动分类来说,在7个单元中实际表现力其实是最差的三个单元。这实在应该要引起专利主管部门的注意:每年一度的代理人培训和考试,是否对代理人提出过更高的标准要求,在协助发明人撰写专利说明书的时候,是否考虑如何利用这些职能段落来充分表达其专利技术和权利的诉求,形审部门在形式审查中是否对文献有更高的标准要求权利人撰写符合足够要求的文档,作为形式审查是否合格的判别依据呢?
  参考文献:
  [1] 吴宏洲.分词技术的研究与应用——一种快速分词的实现[J].电脑知识与技术, 2015, 11(6):179-182.
  186
  [2] 吴宏洲.分词技术的研究与应用——一种抽取新词的简便方法[J].软件工程师, 2015,12, 18(12):64-68.
  [3] 吴宏洲. IPC自动分类技术的研究与应用——辅助自动分类的算法实现[J]. 电脑知识与技术, 2015(11) (33).
其他文献
摘要:该文以《公司总部局域网的设计与实现》项目为例对项目教学实施方案的编制过程进行了详细的阐述。并提出了一个完整的项目教学方案主要包括项目描述、教学目标、工作任务、知识理论和实践技能、教学组织 、教学评价和教学资源七个方面。该文为高职计算机类专业课程的项目教学实践提供了可参考的案例。  关键词:项目教学;教学设计;局域网的设计与实现  中图分类号:G724.4 文献标识码:A 文章编号:1009-
摘要:随着我国信息化技术的发展,多媒体教学模式的广泛应用。“慕课”作为一种新型的教学模式逐渐出现在当前教育者视野之中,它的出现在一定程度上提高了学生的学习主动性和积极性,也给大量的学习者带来了免费的、优质的课程教学和学习的机会,同样“慕课”的出现也给独立学院课程教学带来了一定的危机。该文介绍了“慕课”的概念及功能,系统性地论述了“慕课”在独立学院课程教学中的研究现状以及在课堂教学中的实践策略。  
摘要:计算机应用基础是高职学生必修的一门公共基础课,Blackboard平台在其中的运用对教学效果而言具有显著的促进作用。该文着重介绍了Blackboard平台和高职计算机应用基础课程,并从目前该课程教学当中存在的问题出发,探索了Blackboard平台的实践方式,并思考了其价值,仅供参考。  关键词:Blackboard;高职;教学;探索;计算机应用基础  中图分类号:G642 文献标识码:A
摘要:解魔方机器人课题为了适应对机器人智能化的要求,选择竞技类机器人作为研究对象,研究设计了解三阶魔方机器人,能够为提高竞技类机器人的智能化水平做出贡献。本设计基于Android 平台,颜色传感器作为颜色识别系统,机械手臂作为操纵设备,完成对任意魔方状态的初始还原。机械控制作为解魔方机器人的神经中枢,是机械结构执行算法的纽带。  关键词:Arduino单片机;电机驱动;电机控制;步进电机  中图分
摘要:中国教育“互联网 ”时代的新模式、新思路; 利用互联网时代信息技术打破时空限制,打造没有围墙的学校,培养创新思维,推动学习方式革命;实现终身教育,促进人的自由发展。  关键词:“互联网 教育”;碎片与重构:互联网思维重塑大教育  中图分类号:G424 文献标識码:A 文章编号:1009-3044(2016)07-0107-02  1 缘起  1.1歪打正着,订阅了《中国教育信息化》高等教育版
摘要:网络病毒无处不在,防不胜防,ARP病毒具有很大危害性,它发送大量的伪造数据包,占用网络带宽,通过攻击网关MAC地址,会造成全网段计算机无法正常上网,它还通过截取数据包方式,盗取用户帐户和密码等信息。要彻底分析ARP病毒,必须从ARP协议和病毒工作原理入手,分析查找病毒源。Sniffer Portable软件作为流行的抓包工具,功能强大,几乎所有网络异常情况,都可以通过它得以及时发现,它支持O
摘要:随着信息技术的快速发展,信息化建设在各个领域不断推进,高等院校对信息资源的依赖也日益显著,我国各高校信息化的实施水平存在很大差异,高校信息化在发展过程中也存在一些不足。以南京审计大学为例,分析研究该校信息化实施情况与应用效果,针对存在的问题提出解决对策,为今后高校信息化建设提供参考。  关键词:高校;信息化;实施状况;效果;分析  中图分类号:TP39 文献标识码:A 文章编号:1009-3
摘要:培养文科学生的计算思维能力是教学实践中的难点。该文总结出培养文科学生计算思维能力的着力点,以及文科学生的思维特点,提出了“大学计算机”课程教学中培养文科学生计算思维能力的一些方法。  关键词:计算思维;大学计算机  中图分类号:G424 文献标识码:A 文章编号:1009-3044(2017)35-0155-02  1 概述  目前“大学计算机”课程的教学强调计算思维能力的培养,而“大学计算
摘要:云计算技术的发展飞快:VMware 2011年9月发布vSphere 5.0、历经5.1、5.5、6.0、2016年11月推出vSphere 6.5,对于一款商业平台软件来说,算得上发展迅猛。OpenStack 2010年开始正式发布,每半年推出一个新版本,目前已是第15个版本-Ocata(2017年2月推出);新版本相对于上一个版本完善了原有的功能,也扩展了很多新的功能。这两款云平台软件在
摘要:由于常规的问卷调查方式获取出游行为数据存在人为性和时间间断性,耗资大,不能轻易地实现时空数据的可视化,导致研究者难以有效地分析人们的出游时空分布规律。该文以芜湖市市民出游行为为研究对象,结合地理实体改进基础的网络爬虫算法,构建出游数据抓取模型获得市民出游行为时空数据。并利用商业级图表数据库Echarts作为可视化工具研究对象,实现对芜湖出游时空数据动态地图的可视化。  关键词:居民出游;时空