加权重的贝叶斯网页分类研究与实现

来源 :中国石油大学(北京) | 被引量 : 0次 | 上传用户:slyde
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅速发展,网络信息不断膨胀。如何让网络信息更好地为人类服务,已成为未来几年的一个研究热点。一方面是人们对快速、准确而全面获取信息的渴望,而另一方面却是网络信息的纷繁芜杂,在这两者之间架设一座桥梁的确是一个巨大的挑战。网页自动分类技术正为解决这个问题提供了一种合理有效地组织信息的方法。  论文对中文网页分类的关键技术和具体系统实现进行研究和详细的介绍,并在这些理论知识的指导下设计了一个快速准确的中文网页文本分类器。论文主要做了以下研究工作:  网页文本分类首先需要收集WEB文本,对WEB文本进行预处理,保存其中的文本信息。在这部分,文章首先实现了抢先式多线程中文网页收集器,采用深度优先的算法获取特定类型的网页,接着根据HTMLTag文本的特点,实现了基于非递归方式匹配的WEB文本预处理器,它用于提取网页中的文本信息以及定义的网页标记集。其次,本文在研究文本信息表示和网页信息特点的基础上,加入了中文网页文本表示的权重计算方法。  论文最后设计了中文网页文本分类系统的总体方案,并根据方案实现了加权重的贝叶斯中文网页文本分类系统。
其他文献
本文研究了多振子的协调同步问题,分析了直接通讯时振子间的协调同步在图像分割中的应用;讨论了间接通讯时群体感应机制下多振子达到协调同步的充分条件。受人类大脑和视觉神经
近几年来,随着分数阶微积分学理论的发展,将常规PID控制器引入到分数阶领域,是一项非常值得的研究的课题。由于分数阶PID控制器与常规PID控制器相比多了两个可调参数(积分阶
我国是精对苯二甲酸(Purified Terephthalic Acid, PTA)世界第一生产国和消费国。由于国外专利技术的垄断和核心技术的保密,国内PTA企业不但投资成本高,在原料单耗、能源利用和
随着电力电子技术和现代控制理论的发展,交流调速技术日臻成熟。永磁同步电机以其体积小、损耗低、效率高等优点在交流调速系统中得到广泛的应用。在交流调速系统中,电力变换器
为了使多智能体在不同要求下更好地完成复杂任务,研究了一阶、二阶连续和离散主从多智能体系统的汇聚问题。基于多智能体网络的群体社会制度,提出了三种控制策略,即民主策略、独
近年来,随着科学技术的发展,实际的优化问题变得越来越复杂。优化问题表现出了复杂性、约束性、非线性、多极小、建模困难等特点,因此常规的求解方法已很难适用。而大多数启发式
汽车电气系统中,起动机和发电机是两个相互独立的电气装置。根据电机可逆理论,本文设计了一台飞轮式外转子起动发电机安装在发动机曲轴上,实现起动和发电功能,可以减轻车身重
目前,提高超声波传感器的测量精度主要通过硬件实现。通过硬件改进测量精度,但不能保证测量结果的可靠性。而如何通过软件实现这一目的仍是超声波传感器测量精度研究中的空白
随着市电电网污染的日益加重,以及更多需要高标准供电的电子产品的普及,使得电力用户对电网的电能质量问题投入越来越多的关注。近几年发展起来的利用增量进行控制的逆变技术
21世纪是信息化的时代,技术的发展大大提高了捕获和存储数据的能力。如何将这些海量数据存储、管理和使用就显得越来越重要。本文将一种适用于分布并行计算的广义粒子模型应用