【摘 要】
:
保护知识产权,对经济的健康发展、企业的做大做强至关重要。申请专利是保护知识产权的有效措施,专利的数量和质量更是衡量企业创新能力的重要指标。虽然每一篇专利文献都有其详细的IPC分类号,但是专利文献具有数量大、增长快和文本非结构化的特点。传统的统计分析方法难以发现专利文献中所隐含的大量技术信息和知识,专利的价值得不到充分体现。文本挖掘技术为深度分析专利文献提供了可能。运用文本挖掘的理论和工具来分析专利
论文部分内容阅读
保护知识产权,对经济的健康发展、企业的做大做强至关重要。申请专利是保护知识产权的有效措施,专利的数量和质量更是衡量企业创新能力的重要指标。虽然每一篇专利文献都有其详细的IPC分类号,但是专利文献具有数量大、增长快和文本非结构化的特点。传统的统计分析方法难以发现专利文献中所隐含的大量技术信息和知识,专利的价值得不到充分体现。文本挖掘技术为深度分析专利文献提供了可能。运用文本挖掘的理论和工具来分析专利文献,可以有效地导航企业的创新研发,帮助企业提高创新能力和核心竞争力。本文通过处理和分析专利文献,探讨了文本挖掘技术在专利文献分析中的应用。在硕士研究中选择文本聚类为切入点,针对传统的文本相似度计算方法精度不高的问题,提出了一种基于Word2Vec的文本距离计算公式W2v_dist;针对传统的聚类算法缺乏稳定性和精度的问题,本文结合萤火虫算法和W2v_dist,提出了一种融合萤火虫算法和K-Medoids算法的新型算法K-OFA。最后,设计实现了一个专利文本挖掘系统。本文主要研究成果如下:(1)结合文本挖掘的理论和方法,探讨了文本挖掘技术在专利文献分析中的应用场景。(2)针对文本语义相似度无法很好度量的问题,基于Word2Vec工具,结合LDA主题模型和EMD距离,提出了一种改进的文本距离计算公式W2v_dist。(3)传统的萤火虫算法存在收敛慢、易早熟的问题。因此,本文首先对萤火虫算法进行了优化,然后运用类比的思想,将改进后的萤火虫算法应用于文本聚类。(4)设计了相关的实验,测试了本文提出的改进算法的聚类效果。(5)基于.NET Framework平台,设计实现了一个专利文本挖掘系统。以具体的功能模块为例,简述了基于三层架构的系统开发过程。
其他文献
电能管理系统是利用新一代的智能电力测量装置,结合现场总线及以太网通信技术,运用计算机和软件技术,综合构成的管理系统。
目的探讨精神科护士心理压力与心理健康状况。方法整群抽取112名浙江省温州市3所专科医院精神科护士为研究对象,其他3所综合性医院临床科室120名为对照。采用心身压力测试量表
从乘客的角度出发,针对目前轨道交通换乘枢纽交通信息服务方面存在的问题展开分析.在此基础上,探讨静态信息与动态信息相结合的优化设计方法,力求实现轨道交通换乘枢纽交通信
介绍了戊二醛的合成方法,包括吡啶法、吡喃法、1,5-戊二醇法、环戊烯氧化法等。指出吡喃法是目前国内外合成戊二醛普遍采用的方法,以过氧化氢为氧化剂的环戊烯一步氧化法具有原料价
高等教育引入西方的翻转课堂理念后,信息化教学改革如何有效地展开困扰着众多教育工作者。本文以南京工业职业技术学院的网络课程《国际贸易实务》为例,深入地分析了该课程信
曹辛华(1969-),男,河南巩义人。现为上海大学特聘教授,上海大学诗词学研究中心主任、民国以来旧体文学研究所所长、中华诗词创作学院院长。曾在郑州大学、南京大学、南京师范大学
当今时代全球正在进入大规模城市化进程,“千城一面”问题日益严重。为探寻新城建设中的特色文化展示途径,本文以文字作为出发点,将这些文字简化、提炼、抽象成为基本的图形符号。城市肌理是城市性格和形象的重要表达,包含着城市的历史与文化信息、城市居民的生活、习俗,这些文化的差异促使世界各地不同的城市肌理各具特色,在新城的建设中将文字符号融入到城市肌理的构建当中,能够深度展示文化特色。本文首先针对文字符号与城
针对苏里格气田各类储层流动单元质量与规模认识不清等问题,运用聚类分析方法,对取心井流动单元的储层参数进行聚类分析,将流动单元划分为3类,结合其岩心及镜下薄片分析,剖析
小车在平稳路面行驶,同时前方无车辆障碍,基于此,本研究设计了长距离车道检测系统。在识别车道线时,利用输入的视频进行图像预处理,提取感兴趣区域,获取车道线的最大区域,对
本试验研究不同浓度水平的石灰、多菌灵对巴西蘑菇菌丝生长速度的影响作用。结果表明,石灰浓度在2.5%时翠菌丝生长有促进作用,浓度大于2.5%时对菌丝生长速度有抑制作用。多菌灵对