论文部分内容阅读
专利文献作为技术表达的主要载体,其中蕴含着巨大的科研和经济价值。对特定技术领域开展专利技术主题识别研究分析,有助于理清某特定技术的发展脉络和技术活动的发展历史,这对于识别科技优先领域、合理配置科技资源具有重要意义。当前,专利技术主题识别主要存在的问题有两个方面:1)将专利数据当作普通文本数据处理。由于专利文献用语的晦涩性,致使针对专利文献进行文本处理时难以准确分词,通用分词结果难以达到专利技术领域主题挖掘要求;2)专利主题识别分析维度单一,缺乏多维分析视角。目前,基于专利文献进行技术主题识别研究多依赖于主题词共现网络发明人、专利权人IPC等属性构建的关系网络,但多是基于单一维度进行分析,并未将其中涉及的属性进行融合,从而从立体的、多维的视角研究专利技术主题。 本研究在文本挖掘技术基础之上,通过对专利的多种属性特征内部、特征间的相互关系进行分析,结合异构信息网络融合方法对专利数据属性进行建模,挖掘专利数据属性间的隐性关联关系。因此,提出一套基于异构信息网络融合的专利技术主题识别方法,从而更加精准的识别出给定专利数据集的技术主题。该项研究具有一定的理论意义和现实意义。本研究内容涉及以下三个方面: 首先,在明确研究背景及意义的基础上,界定了同质/异质异构信息网络、异构信息网络融合等概念,对研究过程中涉及的多种网络相关概念进行了区分。接着,梳理了现有异构信息网络融合方法与专利技术主题识别方法的研究现状,并总结和述评了现有研究方法中的优势与局限,为本研究方法的提出提供了理论基础和切入点。 其次,提出了基于异构信息网络融合的专利技术主题识别方法体系,在对专利数据属性充分分析的基础上,引入多维分析视角及网络分析思维,采用异构信息网络建模思维对专利数据集属性及属性间的关联关系进行建模,形成专利异构信息网络。并利用“元路径+加权运算”方式对该专利异构信息网络进行分解、融合。基于该融合网络采用经典的聚类算法k-means进行聚类操作,并提取可以表针聚类簇的专利技术主题。从而完整地实现了本研究提出的异构信息网络融合的专利技术主题识别方法。 最后,以“工业机器人”领域近2年的专利数据作为研究对象进行实证研究。实证研究表明,本研究方法在专利技术主题识别方面具有有效性。同时,为了更进一步说明本研究方法的优越性,取未融合的网络作参照对象,与本研究中的融合网络进行对比,说明本研究方法无论是主题识别的广度还是深度方面均优于未融合的网络。