中文文本自动分类技术的研究与改进

来源 :北京交通大学 | 被引量 : 6次 | 上传用户:pipi1980_ren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅猛发展,尤其是网络应用的普及,各类信息以电子文档的形式充斥着人们生活,其规模也在飞速增长。传统的人工方式对信息进行组织和管理的方法,费时费力、代价巨大,在面对大规模数据时也束手无策。对海量信息的科学组织管理日益成为一个重要课题,文本自动分类技术作为这一课题领域的一个重要研究方向,在信息检索、数据挖掘等方面都有很高的应用价值。在我国大部分信息都是用中文记载的,因此对中文的文本的分类显得尤为重要。目前,伴随着统计学习理论和自然语言处理技术的发展,文本分类技术已经取得了不少研究和实践成果。文本分类技术的四种发展趋势,包括新分类方法的涌现、传统分类方法的改进、新的应用模式及应用领域的出现、理论成果的转化等。本文的工作内容主要包括如下几个部分:(1)对中文文本自动分类技术的研究背景、研究现状、发展趋势进行了分析和总结。对中文文本自动分类的相关理论和关键技术进行了系统的介绍,包括文本分类的定义、文本分类的类别体系、文本分类的预处理技术、文本分类算法、分类结果的评估标准等。其中预处理部分又包括网页内容的解析和提取、中文分词、特征选择、文本表示等方面。分类算法主要介绍了SVM、KNN、NB分类算法,同时对不同的分类算法进行了对比分析,提出了不同的适用场景。(2)基于对文本分类相关技术和理论的研究和分析,设计了一个基于B/S架构的中文文本自动分类方案,并进行了系统的需求分析、功能分析,提出了系统的性能目标、开发运行环境、总体设计方案和详细的模块设计方案。(3)基于该方案实现了一个中文文本自动分类系统,该系统包括语料获取模块、语料处理模块、训练和分类模块、用户交互模块。同时该系统通过维护一个保存网页类别信息的URL分类数据库,提供给用户直接查询网页类别的功能,减少了用户的等待时间。(4)从特征选择方法、词典长度、分类算法、样本数量四个方面进行了对比实验,并对实验结果进行了分析,同时得出了提高分类效果的方法,使该分类方案得以完善。本文未来的努力方向是根据积累的分类经验,从流程和方法上对系统的分类性能进行优化。
其他文献
<正>Lisfranc关节即跖跗关节,以法国Jaqcues Lisfranc(1790-1847)的名字命名。当时有一位士兵在骑马时受伤,前足发生坏疽,Jaqcues Lisfranc为他做截肢手术时发现通过这个关节
<正>"动议提名"是干部选拔任用工作的起点和源头,在选人用人过程中起着关键性作用。针对近年来提名制度比较薄弱,概念不清楚、主体不明确、程序不规范,以防出现选人用人"暗箱
我国高职心理健康教育发展程度不一,高职院校开展心理健康教育在我国尚处于探索阶段。以2013年新生测评为例,根据对新生心理测评的分析结果显示:27%左右的学生存在不同程度的
从各种天然驱蚊精油里提取出几个有驱蚊效果的单体香料成分,分别测定其驱蚊率,用它们配制成高效的天然驱蚊液,再用该驱蚊液与食用大豆油配制成"全天然驱蚊油",用于涂抹人体裸
AMH作为体内唯一的抑制始基卵泡生长的细胞因子,由颗粒细胞分泌,从两个途径发挥其生物学作用,一方面AMH与颗粒细胞上特异的II型受体(AMHRII)结合,通过胞浆内一类Smad3中介蛋白信
2003年我国召开的十六届三中全会将物业税首次提出,将我国房地产在保有环节的税收合并,取消相应的税种而统一征收物业税,之后陆续在北京、南京、重庆等试点开征。二手房交易
血液预警是现代输血医学的重要组成部分。从法国血液预警系统的组成、任务、工作流程及作用等方面,介绍了法国血液预警系统的先进经验。并就其对我国血液预警工作的启示,从法
钛白粉(主要成分为TiO2)具有较高的折射率和介电常数,是目前世界上应用性能最好的白色颜料之一。在溶剂体系中提高TiO2的分散性能可以较大幅度改善涂料产品的质量,降低生产成本
第一章匹罗卡品颞叶癫痫小鼠模型的建立及癫痫后海马神经元和胶质细胞病理改变的研究目的:建立C57BL/6小鼠匹罗卡品颞叶癫痫模型,探讨癫痫后小鼠海马神经元和胶质细胞病理改变
PAT7.4汉语能力测试也被称作——泰国的中文高考试题。它于2009年正式纳入泰国高考科目,但是在近几年的测试过程中出现了一些试题设置方面的问题。由于该考试偏重语法、中国