论文部分内容阅读
随着信息技术的迅速发展,网络信息不断膨胀。如何让网络信息更好地为人类服务,已成为未来几年的一个研究热点。一方面是人们对快速、准确而全面获取信息的渴望,而另一方面却是网络信息的纷繁芜杂,在这两者之间架设一座桥梁的确是一个巨大的挑战。网页自动分类技术正为解决这个问题提供了一种合理有效地组织信息的方法。 论文对中文网页分类的关键技术和具体系统实现进行研究和详细的介绍,并在这些理论知识的指导下设计了一个快速准确的中文网页文本分类器。论文主要做了以下研究工作: 网页文本分类首先需要收集WEB文本,对WEB文本进行预处理,保存其中的文本信息。在这部分,文章首先实现了抢先式多线程中文网页收集器,采用深度优先的算法获取特定类型的网页,接着根据HTMLTag文本的特点,实现了基于非递归方式匹配的WEB文本预处理器,它用于提取网页中的文本信息以及定义的网页标记集。其次,本文在研究文本信息表示和网页信息特点的基础上,加入了中文网页文本表示的权重计算方法。 论文最后设计了中文网页文本分类系统的总体方案,并根据方案实现了加权重的贝叶斯中文网页文本分类系统。