中文文本自动分类技术的研究与改进

来源 :北京交通大学 | 被引量 : 6次 | 上传用户：pipi1980_ren

【摘要】

：

随着信息技术的迅猛发展,尤其是网络应用的普及,各类信息以电子文档的形式充斥着人们生活,其规模也在飞速增长。传统的人工方式对信息进行组织和管理的方法,费时费力、代价巨

【作者】

：

安欢

【出处】

：

北京交通大学

【发表日期】

：

2014年01期

【关键词】

：

文本分类中文分词特征选择分类算法分类方案

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术的迅猛发展,尤其是网络应用的普及,各类信息以电子文档的形式充斥着人们生活,其规模也在飞速增长。传统的人工方式对信息进行组织和管理的方法,费时费力、代价巨大,在面对大规模数据时也束手无策。对海量信息的科学组织管理日益成为一个重要课题,文本自动分类技术作为这一课题领域的一个重要研究方向,在信息检索、数据挖掘等方面都有很高的应用价值。在我国大部分信息都是用中文记载的,因此对中文的文本的分类显得尤为重要。目前,伴随着统计学习理论和自然语言处理技术的发展,文本分类技术已经取得了不少研究和实践成果。文本分类技术的四种发展趋势,包括新分类方法的涌现、传统分类方法的改进、新的应用模式及应用领域的出现、理论成果的转化等。本文的工作内容主要包括如下几个部分：(1)对中文文本自动分类技术的研究背景、研究现状、发展趋势进行了分析和总结。对中文文本自动分类的相关理论和关键技术进行了系统的介绍,包括文本分类的定义、文本分类的类别体系、文本分类的预处理技术、文本分类算法、分类结果的评估标准等。其中预处理部分又包括网页内容的解析和提取、中文分词、特征选择、文本表示等方面。分类算法主要介绍了SVM、KNN、NB分类算法,同时对不同的分类算法进行了对比分析,提出了不同的适用场景。(2)基于对文本分类相关技术和理论的研究和分析,设计了一个基于B/S架构的中文文本自动分类方案,并进行了系统的需求分析、功能分析,提出了系统的性能目标、开发运行环境、总体设计方案和详细的模块设计方案。(3)基于该方案实现了一个中文文本自动分类系统,该系统包括语料获取模块、语料处理模块、训练和分类模块、用户交互模块。同时该系统通过维护一个保存网页类别信息的URL分类数据库,提供给用户直接查询网页类别的功能,减少了用户的等待时间。(4)从特征选择方法、词典长度、分类算法、样本数量四个方面进行了对比实验,并对实验结果进行了分析,同时得出了提高分类效果的方法,使该分类方案得以完善。本文未来的努力方向是根据积累的分类经验,从流程和方法上对系统的分类性能进行优化。

其他文献

Lisfranc损伤及治疗的研究进展

<正>Lisfranc关节即跖跗关节,以法国Jaqcues Lisfranc(1790-1847)的名字命名。当时有一位士兵在骑马时受伤,前足发生坏疽,Jaqcues Lisfranc为他做截肢手术时发现通过这个关节

期刊

内侧楔骨基底部韧带损伤关节融合术Lisfranc克氏针固定切开复位内固定

规范“动议”,严防选人用人“暗箱操作”

<正>"动议提名"是干部选拔任用工作的起点和源头,在选人用人过程中起着关键性作用。针对近年来提名制度比较薄弱,概念不清楚、主体不明确、程序不规范,以防出现选人用人"暗箱

期刊

德阳市组织人事部门暗箱操作

高职院校心理健康教育实效性策略

我国高职心理健康教育发展程度不一,高职院校开展心理健康教育在我国尚处于探索阶段。以2013年新生测评为例,根据对新生心理测评的分析结果显示:27%左右的学生存在不同程度的

期刊

高职院校心理健康教育策略

全天然驱蚊液和驱蚊油及其应用研究

从各种天然驱蚊精油里提取出几个有驱蚊效果的单体香料成分,分别测定其驱蚊率,用它们配制成高效的天然驱蚊液,再用该驱蚊液与食用大豆油配制成"全天然驱蚊油",用于涂抹人体裸

期刊

驱蚊液驱蚊油大豆油天然香料

抗苗勒氏管激素对干细胞因子负调控分子机制的研究

AMH作为体内唯一的抑制始基卵泡生长的细胞因子，由颗粒细胞分泌，从两个途径发挥其生物学作用，一方面AMH与颗粒细胞上特异的II型受体(AMHRII)结合,通过胞浆内一类Smad3中介蛋白信

学位

抗苗勒氏管激素干细胞因子cAMP/PKA颗粒细胞负调控

批量评估方法在物业税税基评估中的应用研究

2003年我国召开的十六届三中全会将物业税首次提出,将我国房地产在保有环节的税收合并,取消相应的税种而统一征收物业税,之后陆续在北京、南京、重庆等试点开征。二手房交易

学位

物业税批量评估税基评估

法国血液预警系统经验及启示

血液预警是现代输血医学的重要组成部分。从法国血液预警系统的组成、任务、工作流程及作用等方面,介绍了法国血液预警系统的先进经验。并就其对我国血液预警工作的启示,从法

期刊

血液预警法国启示

聚丙烯酸酯型超分散剂的合成与应用

钛白粉(主要成分为TiO2)具有较高的折射率和介电常数，是目前世界上应用性能最好的白色颜料之一。在溶剂体系中提高TiO2的分散性能可以较大幅度改善涂料产品的质量，降低生产成本

学位

超分散剂钛白粉聚丙烯酸酯分散性能磺酸基羧酸基

颞叶癫痫小鼠Pannexin通道的表达变化及其对痫性发作的调控

第一章匹罗卡品颞叶癫痫小鼠模型的建立及癫痫后海马神经元和胶质细胞病理改变的研究目的：建立C57BL/6小鼠匹罗卡品颞叶癫痫模型,探讨癫痫后小鼠海马神经元和胶质细胞病理改变

学位

颞叶癫痫Pannexin通道C57BL/6小鼠匹罗卡品海马硬化神经元-胶质可塑性

泰国“PAT 7.4汉语能力测试”分析

PAT7.4汉语能力测试也被称作——泰国的中文高考试题。它于2009年正式纳入泰国高考科目,但是在近几年的测试过程中出现了一些试题设置方面的问题。由于该考试偏重语法、中国

学位

泰国中文高考PAT7.4汉语能力测试泰国汉语教学汉语测试

中文文本自动分类技术的研究与改进

其他学术论文