论文部分内容阅读
专利文献可以很直观的呈现出某项专利产品的技术特征和法律状态,它在推动专利技术传播、社会经济发展、科技技术进步方面做出了很大的贡献。根据世界知识产权组织的相关统计,可在专利文献中查阅到全球每年发明专利的90%~95%,剩余部分可以在其它相关记录查阅到。专利文献是科技信息的主要来源,新技术的产生可以导致一系列相关新产品问世,对人们的生活、企业的发展乃至社会经济产生巨大的推动作用,一项新的技术会经历萌芽期到成熟期的过程并最终以专利文献的形式保存。当代市场和技术的高速发展大大缩减了新产品的研发周期,不断的研发新产品并投入到市场中去对企业的发展愈显重要。目前,国内外对于新技术的研究和技术发展趋势的研究逐步兴起,但在识别专利新技术主题方面依然处于起步阶段。同时,我国对专利文献相关理论与实践的研究相对国外发展尚未成熟,并未形成比较完善的研究体系,缺少根据专利文献自身特点而进行新兴技术识别的相关研究。通过已有的数据和文本挖掘技术并结合自然语言处理相关知识分析专利文献中热点技术的发展演变,并对相应的技术主题进行监测等内容对推进我国科技兴国战略具有重要意义。本文致力于中文专利技术主题监测研究,主要从以下三个方面展开: 第一,中文专利术语识别研究。专利术语识别质量的高低直接影响到后续相关研究的深入进行。本文在总结前人的基础之上,针对前人研究方法在大规模语料中的通用性差,语料标注费时费力的缺点,提出了边界标记集的概念,并应用边界标记集的获取无需人工标注、领域独立性的特点,提出了基于边界标记集的术语抽取方法。文中首先根据边界标记集的定义提出了边界标记集构造方法,利用种子术语权重计算方法抽取候选术语,然后结合术语部件库抽取术语,最后通过统计和规则的方法对抽取出的术语进行过滤。该方法充分考虑了专利术语的上下文信息的特点,对抽取长术语和短术语都能起到较好的效果。 第二,中文专利文献聚类研究。专利文献的聚类是专利文献技术主题监测的基础,由于传统的中文专利文献中并不包含关键词和专利引文等信息,这给专利文献的进一步研究带来了困难。为弥补中文专利文献以上缺陷,本方法提出了中文专利文献关键词抽取算法,并在此之上提出了基于关键词抽取的专利文献聚类算法,进而对中文专利技术主题进行监测。结果表明,使用提出的基于层次的凝聚聚类算法能够较好的按照专利文献的内容进行聚类,这就给下一步的专利文献技术主题监测提供了依据。 第三,中文专利技术主题监测研究。专利文献是科技信息重要的信息源载体,如何快速有效的抽取出专利文献中的技术主题,并通过一定的手段对技术主题进行监测,可有效降低企业的研发新技术成本,提高企业核心竞争力。本文提出了一种中文专利技术主题的识别方法,并设定时间戳对技术主题进行有效的监测。同时,通过运用可视化的技术手段和本体上下位关系对技术主题进行有效监测。