数据挖掘在CSSCI中的应用

来源 :南京大学 | 被引量 : 0次 | 上传用户:A_TRY
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
引文索引原本是作为书目检索工具而开发的,然而学者们很快发现引文索引的作用远不止于此。专家认为,一篇完整的学术论文,应该由正文及之后所附的参考文献组成。正文本身为引用文献(来源文献),参考文献则是被引用文献(被引文献)。通过对引用与被引用关系的研究,可获知学科之间的关系与发展及学术传播的历程,进而了解某领域的研究现状与发展趋势。普通引文分析是基于数理统计方法的应用,以揭示文献之间存在的数量规律,而美国科技信息研究所(ISI,Institute for Scientific Information)于1963年成功的利用计算机,系统化地制作了科学引文索引(SCI),1975年又制作了期刊引用报告(Journal Citation Reports,JCR)之后,为作者的生产力与影响力以及期刊品质之评估树立了一新标杆,通过这些索引和报告,即可分析各类文献被引用次数、被何人引用、共引、自我引用、期刊被引用次数、期刊影响因子、期刊引用与被引用半衰期等数据,长期以来,这些资料不啻为学术成就、期刊等最直接、最便捷、最客观的指针之一。   普通引文分析的方法采用的是常规数理统计方法,所能得到的结果一般在专家想象的范围内,难以通过引文分析得出更多更好的结果。而随着计算机技术、人工智能技术的发展,数据挖掘技术已经得到越来越多学者和管理人士的重视,越来越多的企业已开始在企业内部实施或探讨数据挖掘的理论与应用,一些新的技术手段也逐渐开始在部分领域得到运用。引文数据挖掘也是数据挖掘应用研究的一个方面,引文分析方法中引入了数据挖掘的手段,这给引文分析带来了一个飞跃发展的契机,本文正是通过研究数据挖掘的手段来处理引文数据库,讨论引文分析中数据挖掘的基本过程和方法,以期发现常规引文分析方法难以发现的观点和知识。   引文数据挖掘是一个复杂完整的过程,在进行最终的数据挖掘前,还需要进行前期的准备处理工作,本文从南京大学中国社会科学评价中心开发的中文社会科学引文索引(CSSCI)的数据流程入手,详细分析了从期刊收集、数据标引、输入、校对、提供服务等一系列过程,探讨了通过程序自行控制数据质量的可行性和方法,并使用引文数据进行了全面的挖掘分析,主要完成了以下几个方面的工作:   ·建立了从引文数据仓库构建到客户端应用的完整流程自CSSCI开始对外服务起,CSSCI工作组就建立引文数据仓库进行了多方面的探讨,但一直没有建立从数据收集到提供OLAP完整的过程,尤其是没有在客户端实现查询。本论文在其他论文基础上做了一系列改进,使用Microsoft SQL Server及其分析服务器构建了引文数据仓库,并利用众所周知的Excel、Web浏览器等工具简单实现客户端的查询,使整个流程更加完善,而且建立流程完全图形化,方便非专业用户的使用。   ·通过聚类分析构建了社会科学地图国外有关科学地图(Map of Science)的文献与应用很多,国内由于起步较晚,此方面研究较少,本文从CSSCI来源文献关键词的聚类入手,首先选择22个学科及其来源关键词数据,通过建立相似性矩阵,分析各学科之间的关系,并采用降维办法在二维平面上显示出22个学科,然后将各关键词按照其与各学科的关系,在平面上显示研究热点,则平面上热点分布图就形成了一种社会科学地图,借助该地图不仅可以可视化地了解各学科的关系,而且还可以确定各研究热点的位置,这对于分析学科交叉点和热点有很大作用。   ·对引文数据进行了多角度的聚类分析聚类分析是目前引文数据挖掘中应用最广泛的方法,但见诸文献的研究一般只涉及部分文献或主题,而本论文则就CSSCI所有数据进行了全面的聚类分析,包括:   1)来源主题聚类分析2)被引主题聚类分析3)期刊聚类分析4)文献聚类分析5)作者聚类分析这些聚类分析详细描述了引文聚类分析的基本方法,并针对部分学科进行了挖掘结果的解释,表明了聚类分析的可行性和优势。   ·探讨了引文数据关联规则发现的基本方法,揭示CSSCI数据中部分规则关联规则是数据挖掘中重要的研究方法之一,在市场上应用也十分广泛,但由于CSSCI数据的特殊性,关联规则的挖掘尚不能全面展开,本论文只是就常见的关联规则处理方法(Apriori和GRI)在引文分析中的应用做了探讨,同时采用Web图等可视化的方式对关联规则的结果进行了补充说明,显示出有关学科和刊物等之间的一些简单关联和规则。   引文挖掘的研究工作刚刚起步,同时CSSCI数据收集的全面性还有待进一步的发展,随着技术手段的改进和提高,以及CSSCI收集数据的进一步全面,针对国内人文社会科学领域的引文挖掘会取得更好的成果,也势必能为各机关单位、期刊等提供更多的辅助指导信息,为我国人文社会科学领域的发展添砖加瓦。
其他文献
针对如何选择和确定农业科技信息共享中关键信息质量(IQ)维度问题,采用专家调查方法,从对IQ的实际感知程度和理论认识两方面对相关领域专家进行调查,辨析对农业科技信息有影
随着中国政府信息公开的不断加强,政府信息资源数量不断增长;同时,公众对政府信息资源的利用需求也在不断提高。为提高中国政府信息资源的社会利用水平,充分发挥出政府信息资源所
石油是我国重要的资源,目前油价低迷从而影响了石油企业的发展.石油企业由于行业垄断造成了很多的问题并且社会上也对其提出了一些意见.我国新疆油田,特别是克拉玛依油田就与
首先分析知识转移的内涵、类型,进而构建知识转移的基本模型;其次概括分析国内外学者关于知识转移的研究视角,总体上分为:知识转移的模式、过程、要素、机制、规律和策略等;
针对如何在战争游戏中模拟竞争对手问题,提出战争游戏法分析框架概念.结合战争游戏法分析框架特性,建议将四角模型作为战争游戏法的分析框架.辅以真实案例,对四角模型分析框
通过对比中、美两国的图书馆学毕业生在职业竞争力方面存在的差距,从教育体制、社会环境、任职资格以及社会价值观方面对导致差距的原因进行分析,并提出相应的对策.
以山西省图书馆为例,通过读者、馆员满意度调查对图书馆知识转移效果进行评价,以知识资源、知识提供者、知识转移通道及知识接受者等影响要素为切入点,分析知识转移模式中现
针对目前分众分类法的缺陷,提出主题图Topic Maps这一解决策略,并对国外主题图驱动的标签网站Fuzzzy进行分析,在此基础上提出基于主题图构建知识专家学术社区的原型.知识专家
随着信息技术的迅猛发展和我国证券市场规模的不断扩大,如何对证券行业内来源众多、内容广泛的信息进行合理的集成,并在此基础上实施高效的挖掘,从而为市场各参与方制定决策提供
学位