论文部分内容阅读
文本挖掘的处理对象为文本数据,主要目的为抽取潜在的有价值的信息和知识,它是一种新兴的知识发现技术,在多个领域具有很高的应用价值,因此对我国文本挖掘技术的研究现状进行梳理显得很有必要。传统的内容分析法需要查找的内容多、耗时长,尽管可以得出结论,但整体研究的效率得以降低。而文献计量法却因为入门简单,结果科学全面而受到研究学者的重用。随着大数据时代的到来,CiteSpace等可视化软件应运而生,再结合SPSS等专业统计分析软件,文献计量法借助这些新兴软件也可以对文本数据进行一个更深层次的挖掘。本文的研究对象是文本挖掘,对中国知网数据库近二十年来以“文本挖掘”为主题的期刊文献进行研究分析。除了传统的计量方法外,本文引入CiteSpace、Ucinet、SPSS、R语言可视化工具,直观清晰地展现文献年代分布、作者之间的合作以及核心期刊构成情况,并通过对论文摘要和关键词中的高频主题词进行聚类与多维尺度分析,直观展示研究热点内容。最后对关键词进行突现词检测,结合文献数量变化进行趋势分析,得到未来发展过程中具备发展潜力的关键技术以及新兴应用领域。通过本文的研究可以帮助相关学者和专家认识到我国文本挖掘技术的研究现状、研究热点的变迁以及发展趋势,为研究和学习文本挖掘的个人和机构提供知识导航,进而推动我国文本挖掘技术的研究。