基于Hadoop的维吾尔文文本分类

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:yeyuan1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对维吾尔文组词算法在文本分类中的分类性能不高,以及处理海量数据困难等问题,提出一种改进维吾尔文组词算法(DM),并设计一种基于Hadoop和改进维吾尔文组词算法的文本分类模型。对文本进行分段式处理,对每段分别采用DM组词算法,利用MapReduce编程模型实现该算法的并行化设计,结合Mahout贝叶斯分类算法进行文本分类,实验结果表明,该模型具有较好的分类结果。
其他文献
此次论坛由南宁轨道交通集团有限责任公司总工办主任黄俪、佛山市铁路投资建设集团有限公司副总工程师洪澜主持。国家级研究平台“轨道交通控制与安全国家重点实验室”主任,
通过对各类模型的分析和归纳,提出一种基于Netgen的四面体剖分算法,对不规则三角网(TIN)模型进行封闭性检查、非流形检查、表面法向量检查和相交性检查,实现基于TIN复杂模型的四
批评是领导干部在工作中经常使用的一种工作方法.怎样使批评取得最佳效果?党的十六届四中全会以及胡锦涛同志关于构建社会主义和谐社会的讲话给出了明确的答案,那就是注重"和
变压器是电网的能量传递中心。在电能的传送、分配中起着无可替代的作用。其性能指标直接关系到电网供电的安全性、可靠性。随着科技的发展,大量变频设备投入使用。铁路网的大
本文主要就当前如何利用开放的办公网为生产网提供安全的数据通道就行详细的研究,希望能够对实际起到一定的指导作用。
新型紫外可调谐激光晶体Ce∶LiCAF和Ce∶LiSAF张尚安陶德节魏世道韩奇阳冯朝鲜(中国科学院安徽光学精密机械研究所,合肥230031)NewTypeUVTunableLaserCrystalofCe∶LiCAFandCe∶LiSAFZhangS...
近年来,平顶山工学院组织部在对传统的高校干部考核制度进行大胆改革的过程中,从理论与实践两个方面进行了深人的研究和探索,按照<干部任用条例>和<深化干部人事制度改革纲要
在下属和群众中具有亲和力,是每一位领导干部梦寐以求的.作为领导干部,与下属和群众交流及沟通采用最多的也是最普通的方式,是语言.那么,领导干部如何通过语言,"说"出自己的
目前不少地方的公选都还存在着一些问题与不足,主要表现为公选成本过高、整体效能不高等.公选成本过高已成为制约公选推广的瓶颈,有些地方甚至存在搞不起公选的现象.而要降低