基于Spark的组合分类器链多标签分类方法

来源 :中国科学技术大学学报 | 被引量 : 0次 | 上传用户:lxz119110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据挖掘技术在现实问题中的广泛应用,多标签学习现已成为数据挖掘技术中的一个研究热点.组合分类器链(ECC)算法是一种性能较好的多标签分类方法,其分类效果好、准确度高,但该算法的时空复杂度较高,不能适应大规模多标签数据分类任务.为此提出了一种基于Spark的组合分类器链多标签分类方法,将串行组合分类器链算法的各步骤进行了并行化实现.通过单机实验和集群并行化实验,证明该方法对大规模多标签数据集具有良好的适应能力和加速比,且分类效果不输于传统的串行多标签分类方法.
其他文献
在过去的12年中,实验上发现了大量的类粲偶素.面对如此多新奇的态,理论学家们致力于去解释这些XYZ粒子内在的动力学机制.本文首先简短地回顾已发现的XYZ态,然后主要介绍我们
利用负超可加可相依(negatively superadditive dependent,NSD)随机变量的MarcinkiewiczZygmund型矩不等式、Kolmogorov型指数不等式和随机变量的截断方法,给出NSD随机变量阵列
进入20世纪90年代以来,电子商务的发展极大地改变了人们商务活动的形式与内容,它正在使商贸企业的运作模式发生着显著的改变。为了更进一步地了解中国商贸企业发展电子商务的
随着推荐系统用户数量和服务项目增多,可扩展性问题成为推荐算法应用的瓶颈.目前,大部分推荐算法以及基于这些算法的改进主要集中在推荐质量上,随着系统规模扩大,暴露出实时
据美国WebMD医学新闻网(2015-03-03)报道,最新研究指出,更年期提早与慢性疲劳症候群(CFS)有关。
据英国《BBC新闻》(BBC NEWS)2018-04-10报道,女性进入更年、停经期,动脉就会因为缺乏雌激素的保护而逐渐硬化,血管内皮功能也逐渐失调。近期研究指出,停经期症状越严重,动脉
据英国(BBC新闻》(BBCNEWS)(2014-3-24)报道,七项对超过8000名儿童的研究显示儿童患白血病与暴露于高浓度汽车尾气之间有联系。美国疾病预防控制中心(CDC)审查了这些研究后表示,暴露于
目的探讨人脐带间充质干细胞(hUCMSCs)在MCF-7B乳腺癌微环境中是否存在恶性转变并探究其生物学变化与STA33异常激活及高表达的关系。方法将hUCMSCs分为3组:空白对照组(hUCMSCs单
新的研究显示,剖宫产比顺产出生的小鼠增加更多的体质量,这种差异可能是由改变微生物菌群引起的。对于小鼠来说,当涉及到体质量时,生育模式就很重要。研究人员报告称,在它们
2018-04-15在线发表在《尖端科学》(Advanced Science)杂志上的报告表明,以色列科学家在实验室中创建了世界上第一个使用患者自己的细胞和材料制成的完整的3D打印机生成的心