基于Spark的分类算法的研究与实现

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:sc666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据技术的兴起和大数据时代的到来,如何快速有效地提取海量数据中隐藏的规律和价值已成为人们的迫切需求。Spark是近年来兴起的高可靠性、高性能的分布式计算框架,它采用基于内存计算的编程模型,特别适合处理迭代式计算,具有其他分布式并行框架无法比拟的性能优势,能适应各种大数据应用场景。分类是数据挖掘领域最活跃、最热门的研究方向之一,本文基于Spark平台研究分类算法的并行化,研究中主要作了以下三点工作:本文研究了分类算法中比较经典的决策树算法,选择决策树家族中较具代表性的C4.5算法、CART算法和CHAID算法进行对比研究,根据决策树构造的三个阶段(预处理、训练和剪枝)进行了算法的并行化设计与实现。通过实验对比发现,实现的三个并行决策树算法具有较好的性能。本文研究了传统BP算法存在的缺陷与不足,从多个方面加以改进,包括自适应调节学习率、增加动量因子、采用小批量下降法、采用交叉熵代价函数和使用early stop防止过拟合。将改进后的算法基于Spark平台进行并行实现,在保证准确率的同时大大减少了训练时间。本文研究了决策树与神经网络在功能上的等价性,通过决策树方法构造神经网络,可以解决神经网络结构和初始参数难以确定的问题。结合决策树算法与BP神经网络算法,完成基于决策树的神经网络算法的并行化。实验结果表明,该方法不仅提高了准确率,而且加快了训练速度,具有较高的实用性。
其他文献
随着市场经济日益发展和医疗卫生体制进一步深化改革,作为市场化经营的一部分,医院建立管理会计具有十分重要的意义。本文对医院实施管理会计的现实状况以及原因进行阐述,分
随着电影《蜘蛛人》的持续升温,出版界的相关书籍销量也有所提升,去年10月出版的《台湾常见蜘蛛图鉴》(“行政院”农业委员会出版)也在同期加印
汽车传动轴橡胶护套的性能直接关系到汽车的安全行驶,也直接影响人们的生命安全,本研究在于满足系统技术要求的高速实时的并行闭环控制系统。在系统中,设计了基于DSP的高速传动轴转速测控系统。利用DSP输出可控的PWM波,从而进行转速控制。转速测控系统主要包括转速测量单元、转速控制单元和电机驱动控制器。研究设计了一个传动轴橡胶护套试验系统,通过模拟传动轴高温、高速的工作环境来测试橡胶护套,为用户提供橡胶护
YD集团于1993年以定向募股的形式完成股份制改造,成为国有控股的股份制公司。2000年1月20日在上海证券交易所正式挂牌上市,成为中国保健酒行业唯一一家上市公司。公司自上市以来,市值波动幅度大,极不稳定,最高到达46.15亿元(2008年2月26日,总股本1.66亿股)、最低4.58亿元(2006年3月8日,总股本1.66亿股)。这既不利于公司内在价值的充分体现,更会对公司股东及各利益相关者造成
领先群伦的专业人士专用的绘图方案生产商Matrox Graphics Inc。今天宣布Fenics的Quick Viewer(快速调阅程序)PACS软件,基于Matrox影像馆(MIL)软件开发工具组,现支持Matrox医疗系
本文以N-甲基二乙醇胺(MDEA)为吸收主体,以乙醇胺(MEA)为促进剂,构建了复配醇胺吸收剂,测定了低分压H2S在MDEA-MEA水溶液中的吸收量、载荷和表观吸收速率以及吸收液的粘度。实验
个性服装印制店 转印和电脑技术加在一起将应用领域无限扩展了,可以应用于空白文化衫、牛仔、毛衣、皮包、皮带、手套等,这种技术还可将彩色图案、人像照片烤制在金属板、瓷板
按照今天国内畅销书的发行数字和行销策略,我国的水准与欧美国家相差很远。但是在全球化所带来的幻影和现实的双重焦虑面前,中国出版人还是被快速地卷入到了畅销书的运作战中
薄膜晶体管-液晶显示器(TFT-LCD)具有占用空间小,使用方便无辐射,易于集成化等优点,在轻量化便携设备和大型显示设备中均有广泛应用。由于其制造过程自动化程度高,生产方式适合于大规模工业化,使它在电子显示领域飞速发展。在TFT-LCD自动化生产过程中,为了保证产品质量和生产效率,自动化缺陷检测环节尤为重要。基于机器视觉的视觉检测方法具有自动化程度高,人工干预少,检测速度快等优点,具有重要的研究意
日军通过大屠杀、抓劳工等手段,造成大量中国平民伤亡、失踪等,并销毁战争档案等,导致战后中国政府无法彻底清查、取证和准确统计各地伤亡情况。当时调查的地域、时段、方法等不