论文部分内容阅读
技术主题演化分析是专利情报挖掘的重要内容之一,针对现有技术主题演化分析方法依赖引文、分类等间接信息,未能直接揭示技术主题的内容的缺陷,本文从文本语义的角度出发,将基于非负矩阵分解(NMF)改进的动态非负矩阵分解模型应用于专利文本的动态主题建模,以实现对技术主题的动态演变分析。 本文基于动态非负矩阵分解提出技术主题演化分析框架,主要研究分为6个步骤:①通过Word2Vec训练词向量获取主题词的分布表示,用于主题模型中主题个数k的确定以及主题之间相似度的计算;②通过动态非负矩阵分解对专利文本进行动态主题建模,获取动态主题及相对应的窗口主题;③利用TextRank抽取名词短语对抽取的主题进行标注,增强主题的可解释性;④通过词向量计算主题之间的演化轨迹,并通过Graphviz可视化展示;⑤选取2002年、2005年、2008年、2011年和2014年五年的五方专利数据进行实证分析。实验抽取了65个技术主题及其演化轨迹,并以“汽车生产与制造相关技术”和“电气设备相关技术”两个技术主题为例,分析技术主题的演化过程;⑥对比分析,对本研究采用的动态非负矩阵分解方法的有效性进行验证。 研究表明:动态非负矩阵分解方法能够充分利用专利的文本内容信息,自动识别专利文本中蕴含的技术主题,并识别其演化路径。 本文将动态主题分析的方法应用于技术主题演化分析研究,有两点创新:一方面,直接基于专利文本内容、而不是专利引用或专利分类等间接信息研究技术主题演化,克服了后一种方法粒度较粗、可解释性较差、难以直接揭示技术内容特征等不足,是技术主题演化研究的一次有益尝试。另一方面,将动态非负矩阵分解的方法应用于技术主题演化,并在建模时即考虑到时间因素,把时间作为变量融入到模型中,使得模型能够反映技术主题演化的动态特征。