中文科技政策数据分析方法研究

来源 :现代情报 | 被引量 : 0次 | 上传用户:xoyo7908114
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  〔摘 要〕大数据时代的到来,促进了计算机科学技术的飞速发展,同时也给科技情报分析方法的研究带来发展机遇。有效的数据分析方法是获取有价值情报的基础。科技政策数据分析是指利用计算机处理技术自动地从科技政策数据中提取简练且有代表性的语句,识别出数据的核心内容或用户感兴趣的语句内容。基于科技政策数据内容的特点,本文提出适用于科技政策数据内容特点的数据分析方法,设计并构建科技政策数据内容分析实验系统,验证了本文提出方法的有效性。为探索深层次的科技数据情报分析方法提供了新思路。
  〔关键词〕中文科技政策;数据分析;新能源汽车
  DOI:10.3969/j.issn.1008-0821.2018.06.010
  〔中图分类号〕F204;G311 〔文献标识码〕A 〔文章编号〕1008-0821(2018)06-0068-05
  〔Abstract〕The arrival of the era of big data has promoted the rapid development of computer science and technology,and also brought opportunities for the development of scientific and technological information analysis methods.Effective data analysis methods are the basis for acquiring valuable information.Data analysis of science and technology policy refers that it use processing technology of computer to automatically extract concise and representative statements from the scientific and technological policy data,identify the core content of the data.Based on the characteristics of science and technology policy,this paper proposed a data analysis method suitable for the content of science and technology policy,designed and constructed the experimental system about data analysis of science and technology policy,and verified the effectiveness of the method proposed in this paper.It provided a new way for exploring the deep analysis method of scientific and technical information.
  〔Key words〕chinese science and technology policy;data analysis;new energy vehicles
  科技政策數据是一种特殊类型的科技数据,相比其它类型的科技数据,如科技文献数据,其数据内容更具研究特色,科技政策数据内容相对比较宽泛、公文化表述内容居多。科技政策数据的分析是指对科技政策数据内容进行语句级的分析。目前,国家和各级政府颁布的科技政策通常会通过网络实现实时的发布,例如:我国国家科学技术部、中国科学院和各省、市科委均设有科技政策法规相关网站,并且国内已建有科技政策法规数据库,如:全国科技创新政策数据库,可提供按时间排序的科技政策信息浏览和全文下载功能。但是,针对科技政策数据内容的分析服务并未有涉及。所以,当用户使用传统的关键词方式,检索科技政策数据库时,特别是在大规模数据情况下,用户快速、准确找到其需求的科技政策数据是比较难以实现的。因此,如何准确而快速地挖掘科技政策内容中的关键语句信息,对政策制定者、企业、个人等普通用户均是必要的。考虑到目前涉及科技政策数据深层次内容进行自动分析的研究相对较少,所以研究意义相对更大。因此,本文重点介绍科技政策数据的分析方法,需要指出的是:本文提出的科技政策数据内容分析方法可以为非科技政策数据内容的分析提供借鉴和参考。
  1 研究现状
  目前科技政策法规的研究,即对政策法规研究方法、工具和理论较多,来自不同学科的研究都有其自身的研究基础和方法论,形成了各种各样的研究框架和研究方法。在研究的内容方面,包括科技评价、技术创新、高新技术企业、科技成果转化等,研究方法和工具涉及政治学、社会学、经济学、公共政策等多个学科,主要涉及3个方面:
  1.1 针对科技政策基本理论的研究
  肖世恩[1]以政策法规理论框架为基础,探讨了地方科技创新政策的评估内涵、评估标准、评估指标体系和评估方法。高峰[2]利用政策指数对区域政策法规内容进行整体判断与分析,仲伟俊等[3]在政策工具的视角下构建政策分析框架,建立了基本政策工具纬度、科技活动类型纬度、科技活动领域纬度的三维分析框架,通过实证分析提出我国现有政策法规的不足和展望。
  1.2 利用定量化的方法分析科技政策
  黄萃等[4]提出一种政策工具视角下的政策文本量化研究方法,根据政策工具理论制定分析框架并进行频数统计,在量化分析的基础上提出政策建议,汪涛等[5]提出一种类定量化的政策法规文本分析框架,通过对一定年份北京市政策法规的演进分析,来验证该框架的合理性并提出政策实践的改进建议。   1.3 科技政策内容的分析
  杨阳等[6]通过对政策的收集和对政策内容的总结,分析德国政府关于海上风电政策的演变、德国海上风电在新能源整体战略布局中的地位,最后针对性地提出德国海上风电发展在政策上对于我国发展海上风电的启示。彭纪生等[7]利用计量模型分析了我国近几十年的技术创新政策的演变路径,同时利用柯布-道格拉斯生产函数对政策法规变量进行统计,他们利用政策量化和统计分析的方法,探讨政策法规对经济绩效和技术的影响。
  综上所述,已有研究多是为政策制定者和政策主体制定政策、解决政策问题等提出的分析框架,可为制定者明确问题和调整政策提供参考。但是针对政策服务对象即用户的科技政策内容分析则较少,在大数据量的情况下,用户如果仍然使用传统的检索策略去查询科技政策数据库的数据,是难以快速有效获取有价值的科技政策数据信息的。
  2 科技政策数据的分析方法
  2.1 领域科技政策停用词表与词典的构建
  人类语言系统中有很多对表达文档中心含义没有任何实质帮助的词,这些极其常见的词就是功能词。如果单独考虑这些词语,将会影响文本分析的效率和准确率,所以数据预处理时需要去除这些功能词,这些功能词又被称为停用词。停用词在不同的自然语言过程中指代的定义也有所不同,在基于词的检索系统中,停用词指的是那些没有太大检索意义的词,一般情况下这些词出现的频率也很高;在自动问答系统中,停用词会根据实际问题的不同而变化;在自动分类中,停用词指的是无情感倾向的中性词和无实际含义的虚词。在实际的自然语言处理过程中,部分修饰成分词语可能会对句子识别进行干扰,所以需要过滤这些停用词,从而可有效减少索引量,提高效率,并最终提高匹配效果。
  科技政策数据内容用词较为严谨,政策领域的停用词和通用停用词表相比,没有“哦”、“哈”等语气词,没有拟声词,没有相对白话的转折词,没有人物代词,没有相对特殊的符号,但是有部分公文领域常用词。为了构造适用于政策法规文本的停用词表,首先需要了解普通停用词表应该包含的词性。周钦强等[8]认为,基本的停用词表不仅应该包含通常意义下的数字、标点符号和字符等,也需要包含文本信息量非常少且词频很高的独立字,例如“的”等。罗杰等[9]认为,停用词的词性应包括数词、量词、代词、方位词、拟声词、叹词等,某些没有实际意义的动词和词频过高的名词也可以作为停用词,例如“按照”、“研究”等。所以,本书构建的停用词表也应包含符号、数字和无实际意义的某些词性,为了找到停用词,需要依据一定的标准计算得到。最基本的计算标准是利用词频的大小判断。词频评估函数的理论假设是:通常高频词与高噪声值具有相關性,即当一个词的词频非常高时,很有可能是噪声词。本书利用中国科学院NLPIR-ICTCLAS2014分词系统对所搜集的科技政策法规进行分词,统计分词及词性标注后的政策文本中所有词的词频。可以发现:一些没有实际意义的词,如:“的”、“是”、“和”等虚词,连词(即停用词)出现次数非常多,这些词不能出现在术语中。同时,一些频繁出现的常用词,如:“服务”、“推广”、“加快”、“我们”等,它们虽然有实际意义,但不包含领域专业信息,同样不能出现术语中。对于停用词及不包含领域专业信息的常用词,需对它们进行以下处理:对于停用词,直接将它们存入停用词表中;对于常用词,对照相应公文领域及科技领域主题词表,以词频及主题词表判断作为依据,选择不是术语的常用词,存入停用词表文件中。对于科技政策数据的词典的构建,可以参见文章科技政策术语自动识别技术[10],实现科技政策词典的构建,此处不再赘述。
  2.2 科技政策数据内容的分析方法
  科技政策内容分析是指利用计算机处理技术自动地从科技政策文本中提取简练且有代表性的语句,识别出文本的核心内容或用户感兴趣的语句内容。科技政策文本直观表现为公文化、规整化的长文本。公文化体现在政策法规遣词造句较为严谨,包含大量的公文用词;规整化表现在部分政策法规分条目论述,形式规范,每条内容的联系性一般不大,区别于普通叙述性文章和科技论文。科技政策数据内容还有低噪声和高冗余的特点,低噪声的特点指的是科技政策文本行文规范,没有特殊符号和网络用语;高冗余的特点指的是指有关某个主题的政策用语有可能会十分相似。因此,适用于科技政策数据内容特点的分析方法应以计算政策法规的重要语句为重点,而语句权重的计算是判断重要语句的依据。其计算上,我们重点使用特征组合方法。特征组合的方法是将数据中语句的多个特征按一定方式组合,然后根据对每个特征的计算和特征组合后计算值进行排序,抽取出相对重要的语句。常使用的特征包括:词频、与标题的相似度、句子位置、线索词等。基于科技政策数据内容的特点,本文使用的特征是词频、语句与标题的相似度、语句的技术强度等。
  2.2.1 基于词频的科技政策数据内容权重计算
  词频较大则代表词的重要性更高,那么包含重要性高的词越多的语句的重要性越大,则更有可能称为重要句。这点对于科技政策文本重要语句的分析同样适用。该方法是将词频作为词语的权重,再根据词语的权重来计算语句的权重,其假设文本是语句的线性排列,语句是词的线性排列,若一个语句中权重高的词汇越多,那么其包含的信息量就越大,因此这个语句就越重要。基于该假设,本文此处做如下改进:基于词频的科技政策数据内容权重计算不是衡量语句中的每个词的权重,而是结合科技政策数据词典和停用词表处理来衡量语句中每个术语的权重,这是由于语句中不仅包含有实际含义的词语,也包含一些停用词、无意义虚词,而词典中的术语是本领域中专业概念的集合,理论上语句中的术语包含了语句的主要思想。因此,本文在计算语句权重时,考虑语句中每个术语的权重,既可以简化计算又能提高计算准确率。计算方法如下:
  2.2.2 基于标题相似度的科技政策数据内容权重计算
  科技政策数据文本的标题是一个很重要的信息,标题通常与文章的中心内容相关性很大。由于科技政策文本具有公文化、规整化的特性,其标题通常较为简洁且归纳了该政策的核心内容,因此出现在标题中的词理论上具有更高的权重。基于该假设,本文通过语句与标题的相似度计算来进一步衡量语句的权重,语句与标题的相似度的计算采用基于向量空间模型的相似度计算方法。向量空间模型是最常用的语句、文档相似度度量模型,其优点是基于线性的模型利用统计的手段解决语义的问题,计算方法简单且效率较高。本文研究是基于向量空间模型的原理,利用术语库形成的词典对每个语句和标题进行分词,把语句和标题用其含有的术语即特征项的向量表示出来,然后计算语句与其对应标题的向量间的夹角,向量夹角越小,标题与语句的相似度越高。语句与标题的相似度的计算公式如下:   2.2.3 基于技术强度的科技政策数据内容权重计算
  在某种意义上,我国的科技政策具有指导科技创新发展的意义,科技政策法规内容往往会涉及技术术语。我们可以假设:如果在某个科技政策法规的语句中包含有科技术语,则这个含有科技术语的语句,我们认为它相对其它不包含科技术语的语句是更重要的。2012年,中国科学技术信息研究所组织编撰了汉语科技词系统,其中包含新能源汽车等领域的核心科技术语集、非核心科技术语集和相关科技术语集等。依据汉语科技词系统的内容,本文设计如下基于技术强度的科技政策数据内容权重计算方法。
  如果科技政策的语句中含有核心科技术语,则该语句的技术强度权值为0.8;如果科技政策的语句中含有非核心科技术语,则该语句的技术强度权值为0.5;如果科技政策的语句中含有相关科技术语,则该语句的技术强度权值为0.3;对于其他情况,该语句的技术强度权值为0.1。
  综上,本文提出的科技政策数据内容的重要性计算公式如下:
  3 实验分析
  为验证本文提出的科技政策数据分析方法的有效性,本文设计实验系统平台,应用本文提出的方法并进行相关实验。实验数据是新能源汽车领域的科技政策数据。系统平台实现科技政策数据集中每篇科技政策文本内容的每个句子重要性权重计算。权重计算的主要内容涉及3个方面:一是基于词频的科技政策数据内容权重计算;二是基于标题相似度的科技政策数据内容权重计算;三是基于技术强度的科技政策数据内容权重计算。科技政策数据的分析方法流程如图1所示,通过实验处理后,实现科技政策数据集中的语句内容,按照重要性计算值的高低进行排序输出。
  科技政策的数据内容按policy(Importance_value)值从大到小排序,将内容中的句子依次输出,本文抽取部分所得结果(见表1)进行分析。表1是随机选取的5条政策法规,列举5条政策法规内容中重要性值最高和最低的语句。以随机抽取的例子来看,第一条政策,其重要性值最高的语句描述的是政策制定的目的,重要性值最低的语句描述的是住宅小区物业服务企业对业主提出的要求;第二条政策,其重要性最高的句子描述的是政策目的主题内容,重要性值最低的句子描述地区实施方式;第三条政策,其重要性值最高的语句描述的是政策的适用范围,重要性值最低的语句描述的是政策实施的条件;第四条政策,其重要性值最高的语句描述的是广州新能源汽车推广应用的方案,具有总括性,重要性值最低的语句描述的是探索具体的商业模式;第五条政策,其重要性值最高的语句描述的新能源汽车推广的意义,重要性值最低的语句描述推广应用结果。可以看出,重要性值高的语句包含的信息内容丰富程度和重要程度相对来说比重要性值低的语句高,这些结果可在一定程度上证明本方法的可行性。系统平台的界面如图2所示,该系统平台实现科技政策数据的自动分析,提供语句级的科技政策数据内容重要性分析和数据内容显示功能。
  4 结 论
  随着网络技术的发展和应用,人们获取科技政策数据的途径和方式越来越方便和快捷,与此同时,其也导致政策法规的数据规模日益庞大,涉及的数据内容宽泛且复杂。如何从数据规模大且数据内容各不相同的科技政策数据中,分析其中的有价值数据内容是非常必要的。本文在已有的科技政策领域术语获取方法基础之上,实现了科技政策数据内容的深层次语义分析。针对目前关于科技政策数据内容分析研究较为匮乏的局面,设计并构建了一个科技政策数据内容的分析方法,旨在通过计算机自动处理的方法提炼出相对重要的科技政策语句,进而帮助有查询意图的用户快捷、准确地找到其目标政策语句,为未来实现面向海量政策法规数据集的快速检索、分析和导航奠定分析方法和技术基础。
  参考文献
  [1]肖士恩.基于创新型社会的地方科技创新政策评估理论研究[J].科技进步与对策,2010,27(1):103-105.
  [2]高峰.基于政策指数的科技政策实证研究[J].科技进步与对策,2013,30(19):105-108.
  [3]仲伟俊,蔡琦.科技政策分析框架研究[J].科技管理研究,2014,(22):23-27.
  [4]黃萃,苏竣,施丽萍,等.政策工具视角的中国风能政策文本量化研究[J].科学学研究,2011,(6):876-882,889.
  [5]汪涛,安暄.类定量化科技政策文本分析框架构建及北京市科技政策演进分析[J].技术经济,2011,30(6):15-17,34.
  [6]杨阳,郑彦宁,陈峰,等.德国发展海上风电的政策分析[J].中国科技论坛,2011,(10):154-160.
  [7]彭纪生,孙文祥,仲为国,等.中国技术创新政策演变与绩效实证研究(1978-2006)[C].第七届全国科技评价学术研讨会,北京:科研管理,2007:134-150.
  [8]周钦强,孙炳达,王义,等.文本自动分类系统文本预处理方法的研究[J].计算机应用研究,2005,22(2):85-86.
  [9]罗杰,陈力,夏德麟,等.基于新的关键词提取方法的快速文本分类系统[J].计算机应用研究,2006,23(4):32-34.
  [10]曾文,李智杰,王小玉,等.科技政策术语自动识别技术初探[J].中国科技资源导刊,2017,49(3):20-25.
  (实习编辑:陈 媛)
其他文献
1955年共和国首次授衔时,装甲兵首任司令员许光达专门给毛泽东主席写了一份“降衔申请”,请求将自己的大将军衔降为上将军衔,被毛泽东誉为“这是一面明镜,共产党人自身革命的明镜”。  不要大将军衔  1908年11月19日,许光达出生于湖南省长沙县。1925年,17岁的许光达在长沙师范学校加入中国共产党,第二年考入黄埔军校,1927年参加南昌起义。从1941年起,许光达历任军委参谋部部长、八路军第12
〔摘 要〕在当前“互联网 ”背景下,应用大数据挖掘技术提高知识服务的智能化、个性化、自动化水平,实现智慧性的知识服务是图书馆服务的发展趋势。首先提出基于大数据挖掘的图书馆智慧服务模型,通过用户群挖掘、用户兴趣挖掘、学科和领域知识挖掘、业务关联挖掘来沟通大数据应用和智慧服务需求;然后提出基于Hadoop平台的图书馆大数据挖掘技术支撑体系,为智慧服务应用落地提供技术方案;最后探讨大数据挖掘支持下的场景
〔摘 要〕简要的介绍Dspace系统,详细描述Dspace系统具体的安装过程及在安装过程中碰到的相关问题,对其 原因进行分析,提出了解决的方法。  〔关键词〕开源软件;Dspace;开放获取  〔中图分类号〕G202 〔文献标识码〕C 〔文章编号〕1008-0821(2009)09-0059-03    The System Installation of Dspace and Analysis
每个人都渴望拥有完美生活,那么究竟什么样的生活才算完美呢?  2005年4月11日,在美国加州克莱蒙克大学,95歲高龄的现代管理学之父彼得·德鲁克在接受访谈时说:“我所认识的一些人,虽然说算不上幸福,但绝对是满意现有生活的,因为他们大多数都过着完美的生活;相反,多见于政界的一些人,因只重政治不问他事,最终成为郁郁寡欢之人。一个人的事业一旦达到顶峰,就无路可攀了,而永居顶峰又确实是不可能的。所以,完
[摘要]尝试在构建中国女性人物专题数据库的实践过程中运用数据仓库技术和数据挖掘技术,帮助学术研究者对这些人物在社会发展厦其自身发展的某个具体层面中所呈现的典型现象进行分析。力图改善以往专题数据库建设在这方面局限性。为研究学者搭建更加深层次信息分析的研究平台。  [关键词]中国女性人物;专题数据库;数据挖掘研究  DOl:10.3969/i.issn.1008-0821.2010.06.013  [
关键词:用户;在线旅游;网站信息;本体构建;马蜂窝  随着经济以及旅游业的发展,旅游资源越来越丰富,外出旅游也成为人们的日常休闲活动。网络信息技术的不断进步和发展.让在线旅游获得了极大的进展.在线旅游网站也因此层出不穷,如人们常用的有马蜂窝旅游网、携程旅行网、途牛旅游网、去哪儿旅行网等。面对旅游网站中大量的旅游景区、美食、住宿等信息,人们通常是通过基于关键词的查询方式获取信息,然后再筛选出真正满足
随着留学行业的不断发展,留学服务愈趋细分化。蛋糕越来越大的同时,分到每个从业者手中的分量却越来越少。因而,在新的细分领域中,竞争压力也油然而生,很多人为了利益不惜撕破脸皮。本文系《留学》记者针对行业内两家公司之间的一场商业竞争进行的调查。此事件暴露出行业内存在的一些问题,发人深省。  风火轮编辑_西早供图_视觉中国设计_李阳  2017年3月22日,署名为武汉谨德教育发布一则公告(具体内容见文章后
〔摘要〕4C营销理论是一种重要的理论工具,能够给政府网络营销活动带来诸多启迪,这是因为它与政府网络营销在价值取向、利益导向、运行方式上有着高度的契合。基于4C营销理论,开展政府网络营销,其营销内容主要包括意识形态、公共政策、政府规划和政府形象4个方面。而利用4C营销理论,推进政府网络营销的顺利开展,应当树立“顾客为本”的政府网络营销理念,建立健全政府网络营销成本细分与管控机制,建立全方位立体式政府
〔摘要〕SNS采纳后阶段的持续使用行为是SNS成功的关键,本研究提出情感依恋在用户持续使用意向形成过程中起关键性作用,用户的持续使用意向将受到情感与认知的双重作用。在整合ECM-ISC模型以及情感依恋相关理论、依恋强度ARC模型、情感扩建相关理论的基础上,构建了概念模型,以微信朋友圈经验用户为调研对象,进行了实证研究。研究结果表明:改进后的模型具有更高的解释力,感知有用性、满意和情感依恋对持续使用
摘要:是否拥抱OA、确定OA发展路径,可能决定一个国家的未来开放科学传播、未来数字出版格局,然而当前还缺乏对OA研究的有效方法。本文针对当前OA出版中出现的学术质量良莠不齐、APC模式混乱等无监管问题,研究全球OA出版大数据的监测方法,设计全球OA期刊出版监测体系,包括监测指标、监测模型,用来监测OA出版现状、问题并设置监测预警点,为我国OA选择、科技期刊转型、开放科学的发展提供依据。  关键词: