论文部分内容阅读
随着Internet的日益膨胀,网络信息正以指数级的速度增长。如此庞大的信息资源,使人们获取自己所需信息的时间增长;而在其中充斥着的色情、犯罪等不良信息,严重影响了社会主义精神文明的建设。这就要求我们探索信息过滤的有效方法,从大规模的动态信息流中自动筛选出满足用户需求的信息,屏蔽掉无用信息和非法信息。目前常用的信息过滤方式多样,内容分析判断过滤因具有防欺骗等特征,成为最有效的过滤方式。在内容分析判断过滤中,模板的性能决定过滤系统的过滤性能。然而,由于训练语料数量有限难以覆盖该类别所有的内容,类别模板具有狭隘性;随着时间的推移该类别新增特征词使原有分类器过时,在过滤过程中会带来分类错误和分类遗漏等问题。反馈学习是针对信息变化动态调整、完善分类模型行之有效的方法。本文结合网络信息过滤中所存在的问题,对内容分析判断中的各关键技术进行了深入的研究,提出了对类别模板进行实时更新的反馈机制,致力于保持模板在网络信息过滤过程中的先进性。本文是对网络信息过滤中反馈机制的一次探索,具有较强的理论意义和实践意义。本论文主要研究了以下几个方面:1.向量空间模型中各关键技术的研究和改进本文对向量空间模型中关键技术(数据包截获、特征选择、权重计算、分类算法等)进行了研究。网络数据采用了SPI技术在应用层进行截获,使网络数据的截获独立于特定的浏览器和邮件客户端;特征选择时,首先去停用词,继而采用Zipf定律初步筛选,最后运用组合特征选择算法进行空间降维;特征项权重计算时,首先对网络信息预处理,然后分别结合网页和邮件特征进行加权计算,提高了分类效果。2.网络信息过滤中的反馈机制鉴于模板的狭隘性、网络信息的易变性以及未标记文档的重要性,本文对反馈机制进行了重点研究。本文从反馈信息的获取、反馈信息的使用和反馈信息的评价三个方面出发,探讨了用户的相关反馈技术,并从隐反馈学习和伪反馈学习两个方面分别提出了反馈算法,对用户模板进行优化。并在本文所实现的网络信息过滤系统中对反馈前后的模板进行了性能测试,实验表明本文所提反馈机制对网络信息过滤性能的提高有明显作用。3.邮件客户端过滤网页和邮件是网络信息中两大载体。本论文在对网页信息过滤研究的基础上,对客户端邮件内容过滤进行了探索。本文根据POP3协议截获邮件,对其进行MIME协议解析,并根据内容过滤中的多层过滤机制对其进行分析过滤,从而形成了一个能同时过滤网页和客户端邮件完备的网络信息客户端过滤系统。4.网络信息过滤系统的设计与实现在对向量空间模型各关键技术研究的基础上,对每一个功能模块根据高效、实用等原则进行了设计,并最终实现了一个多策略、多层次、高效的网络信息客户端过滤系统。