【摘 要】
:
文本分类是按照一定的分类标准进行自动的标记分类的。这种智能化的分类使得我们无需通过文本的表达等信息,就能从中得知后面的文本是否是自己所需要的。文本分类一般包括文
论文部分内容阅读
文本分类是按照一定的分类标准进行自动的标记分类的。这种智能化的分类使得我们无需通过文本的表达等信息,就能从中得知后面的文本是否是自己所需要的。文本分类一般包括文本的表达、分类器的选择、分类结果的评价和反馈等过程。随着网络技术的发展,自动文本成为行业先驱以及各种智能化、个性化的搜索引擎,并且在许多领域独领风骚。文章不仅对部分特征提取的工作做了细化,还对各种算法和一些基本概念以及分类器的选择作出了说明,并对文本分类的问题进行了剖析并说明其优缺点,以及如何更好的应用它们。其次,针对各种算法存在的弊端提出了稀疏贝叶斯概率模型,使其能够更好的适应文本分类的需要,并完善相关的技术。再次,通过判断收缩因子的类密度以及相关的性质,给出了必要的证明和解释。稀疏贝叶斯概率模型大大提升了文本分类的准确度,使人力成本大幅降低。我们还利用了统计学习的办法,对分类器进行了有效的分类,最后对各类分类器的优缺点进行了评价,指明了模型的用途和相应的局限性。现今,统计方法已成为文本分类领域的主要方法以及明确的标准,这样应用起来更加的得心应手。我们采用的稀疏贝叶斯模型不仅降低了文本分类的计算量,还提高了文本分类的速度。我们的实验结果表明,稀疏贝叶斯模型在大数据方面优于传统的模型的算法,不仅有效的提高了查重率和分类速度,还更好的实现面向对象的准确率。
其他文献
反馈控制系统中的控制回路关闭通过实时网络被称为网络控制系统。有成本低,简单的安装和维护,增加了系统的灵活性和降低了系统布线等优点。但是,相对于传统的点至点控制系统,通信
反问题的研究领域非常广泛,大多数来源于各种实际背景,具有多学科交叉的特征,无论在理论研究还是在实际应用方面都具有非常重大的意义。反问题大多属于不适定问题,而且是非线性的
数据包络分析(Data Envelopment Analysis)简称DEA,是数学、运筹学、数理经济学和管理科学的一个新的交叉领域。DEA是使用数学规划模型进行评价具有多个输入、特别是多个输出单位间相对有效性的方法。从最早提出发展至今已经出现了许多新的模型和方法,同时在社会生活的各个方面都得到了广泛应用。本人在前人的基础上主要做了三个方面的工作:1、运用“交形式”生产可能集,给出非参数方法所确定
害虫问题一直以来都是农作物生产中不可避免的问题,如何有效地控制害虫至关重要。多年以来,喷洒杀虫剂是人们控制害虫的最常用方法,考虑到杀虫剂作用于害虫这一过程并不是瞬间完
对于函数空间乘子理论的研究已经有很长的历史,国内外许多著名学者都作过一些卓有成效的工作。Hardy-Littlewood 结论对复分析三个经典问题用乘子语言做了解释。在对一维情形
老舍对语言的要求比较高,他强调一个作家不仅要能够将语言与情感有效的结合,同时还要能够用最简练的语言表达出来,同时老舍还倡导只有从生活中凝练语言,才能够找到语言的根。而老
本学位论文对两类离散的Smith-Holling型捕食与被捕食系统的稳定性与分岔进行了分析和讨论。全文共分三章。
本文第一章首先简单的介绍了混沌动力学的发展史,列出了分岔
编辑同志:我单位一名干部因违纪受到党内警告处分,因他在工作中有突出表现,请问基层党组织是否可以讨论报请上级党委撤销给予他的正确党纪处分?广西蒙宏蒙宏同志:关于党组织
一直以来地球化学元素异常下限的确定是勘察地球化学的一个基本问题,数十年来人们一直在寻求一种既能体现地球化学元素含量分布特点,又能快速、准确地确定地球化学异常下限的