论文部分内容阅读
专利文献是科技成果的重要表现形式,它能迅速全面的反应科技成果的最新动态,对企业、科研单位以及政府等都具有指导意义。因此,国内外科研机构都对专利文献检索、专利信息分析给予高度重视,希望通过收集专利数据,分析专利信息,挖掘其中有价值的知识,帮助企业或国家了解行业动态,技术发展趋势和技术机会,从而提高决策准确度,提升预警能力。近年来,国内外学者在专利信息抽取、采集、分析等方面有一定的研究,但在专利信息处理、专利分析指标、专利多维分析、数据挖掘以及面向主题分析等方面还没有进行深入的研究。同时虽然一些专家提出了一些专利分析指标、专利分析模型、但这些分析都需要人工手动分析,专利分析工作费时耗力,大大增加科研人员的工作量。根据专利分析需求和专利数据源,设计并实现了面向主题的专利分析系统。首先根据专利分析需求,抽取专利数据放入本地专利数据库中,本地专利数据库由于存储格式、下载方式、系统因素以及人为因素存在一些“脏数据”,这就需要设计相应的ETL(Extraction-Transformation-Loading)对专利数据进行初步的清洗、转换工作,从而得到干净的专利数据,为之后面向主题的数据仓库提供高质量、规范、纯净的专利数据。生成基础专利数据仓库之后,根据不同的主题分析模型,通过抽取、整合建立多个面向主题的数据集市,并针对数据集市建立多维立方体、KPI(Key Performance Indicator)指标,从不同主题对专利数据进行分析。同时将分析结果制作成专利地图实现可视化,最后将其发布到信息平台实现跨企业共享和集中式服务。创新之处在于:第一,利用Sql Server2005整合服务技术完成基础数据仓库的建立,同时设计主题模型库和KPI指标库,并利用ETL技术实现主题数据集市,建立维度表和事实表结构;第二,利用Sql Server2005分析服务建立多维分析模型,通过OLAP对主题数据集市实现切片,切块,KPI指标等数据分析操作,最后选择Excel2007作为结果展示工具,将结果利用透视图等形式展现,为商业决策提供依据。利用本系统,用户可高效地对专利信息进行规范整合,自动完成对某一项技术历史发展演变的刻画、自动的通过专利来衡量企业的创新能力,为国家、企业引导出新的预见和更高效的决策。