论文部分内容阅读
使用Python爬虫爬取Kaggle官网近8年来共302个竞赛的赛事63 264个Kernel的相关信息,获取包括竞赛主体、竞赛任务、数据挖掘工具、算法使用情况以及应用领域的详细数据,利用词云、桑葚图等图表进行可视化分析。通过分析发现:(1)目前数据挖掘领域使用最多的编程语言为Python,使用最多的机器学习工具包为Keras;(2)数据挖掘的最热的研究方向主要包括机器视觉、自然语言处理等;(3)现有数据挖掘热点领域主要有医疗健康、公共管理、零售、电商、金融、文化娱乐、测绘遥感、保险、自动驾驶等;(4)热点数据挖掘算法主要包括随机森林、神经网络、增强算法等。