论文部分内容阅读
随着信息技术的迅猛发展,尤其是网络应用的普及,各类信息以电子文档的形式充斥着人们生活,其规模也在飞速增长。传统的人工方式对信息进行组织和管理的方法,费时费力、代价巨大,在面对大规模数据时也束手无策。对海量信息的科学组织管理日益成为一个重要课题,文本自动分类技术作为这一课题领域的一个重要研究方向,在信息检索、数据挖掘等方面都有很高的应用价值。在我国大部分信息都是用中文记载的,因此对中文的文本的分类显得尤为重要。目前,伴随着统计学习理论和自然语言处理技术的发展,文本分类技术已经取得了不少研究和实践成果。文本分类技术的四种发展趋势,包括新分类方法的涌现、传统分类方法的改进、新的应用模式及应用领域的出现、理论成果的转化等。本文的工作内容主要包括如下几个部分:(1)对中文文本自动分类技术的研究背景、研究现状、发展趋势进行了分析和总结。对中文文本自动分类的相关理论和关键技术进行了系统的介绍,包括文本分类的定义、文本分类的类别体系、文本分类的预处理技术、文本分类算法、分类结果的评估标准等。其中预处理部分又包括网页内容的解析和提取、中文分词、特征选择、文本表示等方面。分类算法主要介绍了SVM、KNN、NB分类算法,同时对不同的分类算法进行了对比分析,提出了不同的适用场景。(2)基于对文本分类相关技术和理论的研究和分析,设计了一个基于B/S架构的中文文本自动分类方案,并进行了系统的需求分析、功能分析,提出了系统的性能目标、开发运行环境、总体设计方案和详细的模块设计方案。(3)基于该方案实现了一个中文文本自动分类系统,该系统包括语料获取模块、语料处理模块、训练和分类模块、用户交互模块。同时该系统通过维护一个保存网页类别信息的URL分类数据库,提供给用户直接查询网页类别的功能,减少了用户的等待时间。(4)从特征选择方法、词典长度、分类算法、样本数量四个方面进行了对比实验,并对实验结果进行了分析,同时得出了提高分类效果的方法,使该分类方案得以完善。本文未来的努力方向是根据积累的分类经验,从流程和方法上对系统的分类性能进行优化。