有效特征值提取的快速中文文本分类

来源 :南开大学 | 被引量 : 0次 | 上传用户:hudawen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息产业特别是互联网的高速发展,人们可以很容易地从互联网、数字图书馆以及公司内部网络获得海量的数据。这些数据按照其组织形式可分为:结构化的数据(如数据库记录等)、半结构化的数据(xml文档,有相对固定格式的各类格式化文档)和无结构数据(如中文文本等)。 面对浩如烟海的数据,需要使用数据挖掘技术从数据中抽取感兴趣的信息。对于结构化的数据,数据挖掘工作比较直观,但是对于一些非结构化数据(包括半结构化数据中的非结构化数据),尤其是我们日常生活一个重要的信息来源——中文文本,需要做特殊处理。而中文文本分类正是中文数据挖掘的一个重要基础。 在本论文中,先对当前文本分类的发展现状和相关方法做简要的回顾。 文本分词是中文文本分类的基础。本论文首先实现了基于语料库的统计分词系统。然后对文本进行预处理,去掉弱词性词汇,只保留2-4个字的名词和动词。 对文档进行了预处理后,按照一般文档分类过程依次给出了新的特征选择和特征权重的计算方法,并据此设计了一种基于贝叶斯原理的快速分类器。 特征选择:提出了一种新的基于词频、互信息和类别信息的综合特征选择算法,能够去掉大量的噪声,提高分类效率。 特征权重:分析了传统TF-IDF权重函数的不足,提出利用特征选择函数值代替IDF进行权值调整,并在词频统计上进行了改进。 分类算法:根据贝叶斯原理,利用特征选择函数值衡量特征词与类别的相关性,结合权重计算方法判断测试文本的类别,比传统的贝叶斯算法更加简单有效。 在论文的最后,通过对一组从高校BBS上收集的文档集试验来验证本论文提出的一系列处理方法的有效性。试验结果表明本论文所提出的中文文本分类方法比较高效。
其他文献
目前,传统的DVD碟片容量已无法满足观看高清晰视频节目(分辨率1920×1080)的要求。蓝光光盘价格居高不下,且转产成本高,而国内厂商也面临着DVD专利困扰,这些都表明了开发一种
知识表示一直是人工智能研究的重要课题,无论应用人工智能技术解决什么问题,首先遇到的就是所涉及的各类知识如何表示。在人工智能领域,对知识的表示有多种方法,但一般都受其
随着互联网的迅猛发展和网民数量的迅速增长,网站的功能也不断扩展,由此造成了人们参与网络活动的方式不断演化,即从简单的获取信息到直接参与网络内容的建设。网络逐渐成为了信
学位
无线传感网络是指由无线传感网络节点通过无线通信组成的网络。无线传感网络技术在最近十年来得到了飞速的发展,开始从学术界研究走向商业应用。然而硬件技术的进步并不会使无
本文将语音信号处理技术应用在外语语言学习中,设计实现一个可以自动评价中国人英语发音质量的系统。该系统集中了人类发音专家的知识,可以自动比较学习者的发音与标准发音之间
随着社会的发展,信息化进程的加快,计算机应用已经深入到各行各业,专注于流程描述的工作流技术就是其中的一个重要应用,在办公自动化、电子政务、制造生产等方面都可以用到相关技
近年来随着数字化在各机关企业中越来越普及,数据库在各个企业中的角色也就越来越重要。数据库所累积大量的数据中往往隐藏了许多有用的重要信息,如何能够有效率且正确地发掘
随着计算机应用的普及,信息系统产生的数据量日益增大,如何有效地利用巨量的原始数据分析现状和预测未来,已经成为人类面临的一大挑战。这时,数据挖掘技术应运而生。数据挖掘又称
随着计算机技术和互联网技术的发展,信息检索已经成为一项重要的技术,在各个领域都有着广泛的应用。因此,对信息检索进行硬件加速以提高计算效率就成为了一个重要的研究方向。随