数据挖掘应用热点研究——基于Kaggle竞赛数据

来源 :图书馆学研究 | 被引量 : 0次 | 上传用户:jjuuhhuu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
使用Python爬虫爬取Kaggle官网近8年来共302个竞赛的赛事63 264个Kernel的相关信息,获取包括竞赛主体、竞赛任务、数据挖掘工具、算法使用情况以及应用领域的详细数据,利用词云、桑葚图等图表进行可视化分析。通过分析发现:(1)目前数据挖掘领域使用最多的编程语言为Python,使用最多的机器学习工具包为Keras;(2)数据挖掘的最热的研究方向主要包括机器视觉、自然语言处理等;(3)现有数据挖掘热点领域主要有医疗健康、公共管理、零售、电商、金融、文化娱乐、测绘遥感、保险、自动驾驶等;(4)热点数据挖掘算法主要包括随机森林、神经网络、增强算法等。
其他文献
以醋酸锌、硝酸镧和硝酸钇为原料,丙烯酰胺为单体,N,N’-亚甲基双丙烯酰胺为网络剂,过硫酸铵为引发剂,采用高分子网络凝胶法制备得到镧、钇共掺杂的Zn O纳米粉体。用紫外灯作
文章以苏珊·朗格《情感与形式》一书中的音乐美学思想作为理论出发点,从音乐的本质、音乐的语言性、音乐的时间性、音乐的幻象性、音乐的三要素(作曲家、演奏或演唱者、欣赏
<正>弧菌(Vibrio)是海洋环境中(淡水中也有)最常见的细菌类群之一,广泛分布于近岸及河口海水、海洋生物的体表及肠道中,是海水、原生动物、鱼类等海洋生物中的正常优势菌群。
<正>大气污染是影响公众健康的重要危险因素之一。近年来,我国许多地方出现严重灰霾天气,而灰霾天气的发生与大气中细颗粒物(Particulate Matter 2.5,PM2.5)浓度存在着密切的
目的探讨冠心病患者焦虑、抑郁与冠状动脉粥样硬化斑块稳定性的关系,为早期筛查负性情绪患者,减少不稳定斑块的发生提供参考。方法采用自编一般资料问卷,焦虑、抑郁自评量表
<正>环境保护部等四部委发布的《关于推进绿色"一带一路"建设的指导意见》中指出,加强绿色供应链国际合作与示范。在"一带一路"建设中,绿色供应链管理将作为"一带一路"国家经
以新鲜收割的玉米秸秆为实验材料,研究在风干过程中玉米秸秆水分变化以及乳酸菌菌落数和秸秆含水量的关系.结果表明:玉米叶片在收割后40d左右含水量下降至30%,而茎秆在收割后
近年来,我国北方大部分地区出现的干旱少雨、水资源短缺等问题日趋严重,加上人为因素对地下水的过度开采及不合理利用水资源而引起了一系列水的供需不平衡问题。农业用水更是重
构建“不想腐、不能腐、不敢腐”的有效机制,是对反腐败工作规律的科学总结,是加强反腐败体制机制创新和制度保障的重要举措,对党风廉政建设和反腐败斗争提出了新的更高要求。但
报纸
中华人民共和国最高人民法院 中华人民共和国最高人民检察院$$ 公告$$ 《最高人民法院、最高人民检察院关于办理抢夺刑事案件适用法律若干问题的解释》已于2013年9
报纸