【摘 要】
:
进入大数据时代,中文文本的数据量的显著增加,如何针对大数据量的文本数据进行有效分类是一个重要问题。传统的朴素贝叶斯算法在进行分类时,认为特征属性对分类决策的贡献是
论文部分内容阅读
进入大数据时代,中文文本的数据量的显著增加,如何针对大数据量的文本数据进行有效分类是一个重要问题。传统的朴素贝叶斯算法在进行分类时,认为特征属性对分类决策的贡献是相同的,同时对于大数据集的处理也存在性能低下的缺点。针对如上问题,本文提出了一种基于TFIDFCF特征加权的并行化朴素贝叶斯文本分类算法,该算法通过Map Reduce并行框架实现。利用THUCNews新闻文本数据开展文本分类处理,实验结果表明,并行框架下的TFIDFCF特征加权的朴素贝叶斯算法在训练速度和预测精度上都有提高。
其他文献
核电厂设施是由构筑物、管系、设备和部件(SSCs)等组成的十分复杂的系统,抗震I类设施的抗震设计分析是在安全停堆地震(SSE)设计基准事故下确保核电厂安全的重要措施之一。为了将
随着汉语学习者对专业语言训练的要求,商务汉语教学日益升温,商务汉语教材和教材编写研究得到更加重视。现成的商务汉语教材大多数由中国大陆编写,但使用过程中发现存在一些
随着教育体制的变革,学生的学习负担也越来越重。这在很大程度上降低了学生参与体育锻炼的时间,导致学生身体素质普遍下降。新课程标准提倡的是学生综合素质的发展,而身体素
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
高职院校传统的人才培养模式已经不能满足社会发展需求。本文分析了现代学徒制人才培养模式的特点和司法信息安全专业人才的需求现状,从人才培养方案、实验实训基地建设、师
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技