【摘 要】
:
随着互联网和信息技术的快速发展,网络中的数据正以惊人的速度快速增加。在各种数据中,非结构化的文本数据占主要成分。如何通过文本分类技术去挖掘文本中潜在的信息具有非常
论文部分内容阅读
随着互联网和信息技术的快速发展,网络中的数据正以惊人的速度快速增加。在各种数据中,非结构化的文本数据占主要成分。如何通过文本分类技术去挖掘文本中潜在的信息具有非常重要的意义。近些年在文本挖掘领域,LDA模型以其杰出的文本表示能力得到了普遍关注和深入研究。在此期间,LDA的并行模型被相继提出。但在大规模数据集下,现有并行LDA模型的通信开销和空间复杂度过高。如何快速、精确地进行文本表示,并在其基础上实现文本分类的并行化是当前研究的关键问题。本文针对如何提高文本分类精度和效率两大难题,对文本表示和文本分类两个阶段进行改进。在文本表示阶段,针对现有LDA并行算法中模型通信开销大的问题,本文提出了一种新颖的LDA模型并行算法,基于齐普夫定律提出模型通信频率划分策略,来减小模型并行训练中的通信开销;同时基于高斯函数提出了一种词加权方法,在不失文本表示精度的前提下,提高LDA模型的训练效率。在文本分类阶段,使用模型分类性能最优的SVM模型进行分类,为了提高模型分类精度,采用粒子群的智能优化算法对高斯核函数的支持向量机进行参数调优。此外,为了提高分类效率,本文在Cascade SVM算法的基础上,提出了一种改进的Cascade SVM并行算法,结合当前主流的Spark并行框架,有效地提高了模型的训练效率。实验结果表明,本文提出的LDA并行算法,在文本表示精度不受影响的情况下,很好地降低了模型并行的通信代价。采用粒子群算法参数调优的SVM同采用默认值参数的SVM相比,有效提高了文本的分类精度。在LDA并行文本表示的基础上,采用改进的Cascade SVM算法同原有的算法相比,在不改变分类精度的前提下,提升了分类效率。通过以上三组对比实验,表明本文方法的可行性。
其他文献
居住发展在人们的生活以及城市的发展中具有重要意义,居住空间的品质影响着个人生活以及城市建设的品质。随着国家经济的增长和生活水平的提高,居住建设不再只是对数量方面需
去程:2019年12月7日汉莎航空:13:50——05:40(1d2h50m中转法兰克福)浦东国际机场T2——里约热内卢国际机场T2回程:2019年12月15日汉莎航空:19:35——11:50(1d5h15m中转法兰克
去程:2019年12月7日荷兰皇家航空:00:30——18:40(1d5h4m中转阿姆斯特丹)首都国际机场T2——里约热内卢国际机场T2回程:2019年12月15日荷兰皇家航空:20:50——06:55(23h5m中
目的探讨极低出生体重儿血小板参数与脑室内出血(IVH)的关系.方法将84例极低出生体重儿分为无IVH组、轻度IVH组和重度IVH组,分析比较其生后24 h内的血小板参数.结果血小板计
随着高速铁路,高速公路建设的快速发展,长大桩的施工在桥梁工程中使用越来越普遍,且多处于地质软弱和地质条件复杂的土层或岩体中,加之施工机械.施工工艺多样化,基桩施工缺陷时有发
近年来,国内会奖旅游业发展快速,呈现出一片欣欣向荣景象。而在消费升级的推动下,会奖客人的需求也发生了一些变化,如更加注重体验感、希望活动有创意、能从活动中有收获,等
11月21-22日,2019年创新经济论坛在北京召开。论坛聚焦全球经济治理、贸易、科技、资本市场、气候变化、包容发展与城市化等重要领域的前沿议题。国家副主席王岐山出席开幕式
北京市是全国政治文化的中心,也是中国国际交往的中心,集中体现了我国政治、经济体制改革的进步和发展,全面反映着我国精神文明建设和物质文明建设重大成果。北京经过建国40多年
随着社会经济的发展,行政性、事业性收费对社会生活的影响越来越大,因此,加强对行政性、事业性收费工作的管理,把行政性、事业性收费工作同治乱、清费、减负、加强内部廉政建设、
近年来,随着医学模式向生物—心理一社会医学模式的转变,儿科医护人员工作逐渐成为一项综合性的工作。医护人员的服务范围逐渐从个人走向家庭,从医院走向社会。从治疗走向康复,经