基于内容的Web不良文本信息过滤技术研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:hhww541
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet是新兴的信息发布和流通媒体,其中文本信息占整个互联网信息总量的60%,由于缺乏类似于传统媒体一样对信息发布的监控手段,大量没有受到监控和控制的网络不良文本信息随之泛滥。如何过滤网络中的不良文本信息,保障互联网的信息安全,是当前网络不良信息过滤研究的热点和富有挑战性的研究课题。   本文针对目前网络不良文本的信息过滤技术存在不足,主要开展了如下研究:   (1)针对网页文本的文本表达虽然可以使用传统(普通)文本的表达方法,但是它并不完全等同于传统文本等问题,分析研究了现有的Web网页正文预处理的相关技术与算法。   (2)针对现有分词技术存在分词歧义性问题,研究了现有的基于字同现频率的文本主题抽取算法在不良文本信息过滤的应用。该算法根据关键词在主题的分布情况,以及在非主题中的分布情况分别给予关键词不同大小的权重,从而实现有针对性的过滤,即该算法在色情文本过滤应用中具有很高的精度。   (3)针对现有的基于字同现频率的文本主题抽取算法存在误判率高问题,提出了基于临近类别分类的过滤方法。该方法对文本主题抽取算法过滤的结果进行二次过滤,有效提高了过滤的精度。   (4)基于临近类别分类的原理方法,提出了一个基于内容的临近类别分类的过滤模型。该模型对主题抽取的过滤结果进行分类处理,进一步判断该信息是不良信息还是近似信息,以确保信息分类的高精度。   (5)针对现有文本过滤算法的不足,改进了传统的KNN、Bayes算法,有效提高了不良文本信息过滤的精度。   (6)依据东北大学自然语言实验室开放的CN数据库的文本样本,对本文的算法和现有算法进行了实验比对。
其他文献
挖掘数据流的频繁项已受到广泛关注,研究者们提出了一些高效的数据流上挖掘频繁项的算法,尽管这些算法能够比较好的找到频繁项,但对频繁项频数的估计往往存在较大误差。而我们提
随着Internet的普及,XML逐渐成为了信息交换和编码的主流格式和事实标准。而传统的关系数据库查询算法对于具有半结构特性的XML已不再适用。因此,如何快速的在XML数据集中找到
随着计算机在各个领域的广泛普及和Internet的迅猛发展,现实世界中的信息量呈指数级增长。如何从这些海量信息中抽取人们所需要的特定信息成为一个迫切需要解决的难点。关系抽
近年来,随着多媒体技术、计算机技术和网络技术的不断发展,视频的实时传输得到了广泛的应用。视频实时传输中庞大的数据量、对实时性的高要求和目前的网络带宽不足之间的矛盾是
随着互联网络的普及,软件技术的发展,软件的规模和复杂性剧增,开发软件常常处于失控状态,软件产品的质量则无法保障。作为一种人工智能系统,软件产品的功能、性能及可靠性等
三维几何模型已成为继声音、图像和视频之后的一种重要的数字媒体,点云模型是以离散采样点为基元的三维几何模型。点云模型数据结构简单、存储空间紧凑,具有表达复杂表面细节的
低剂量CT肺部筛查是发现早期肺癌的重要手段。其中,肺间裂是肺叶的边界,对肺间裂的准确提取,有利于后续的图像配准、三维重建等。论文在分析、总结国内外现有医学影像分割方法的
视觉显著性检测是通过计算机来模拟人类的视觉系统,定位显著性区域。它能够将图像中的背景等无用信息过滤掉,而仅仅留下重要信息。由于现有的主流算法均是基于自底向上的。这类
在嵌入式系统中,设备驱动程序是系统控制硬件的接口,其功能直接决定了嵌入式系统的应用。研究表明,开发人员要花费约16%的时间进行底层驱动代码的开发。而原有的那些通过产生简单
计算机的使用越来越普及,人们对计算机的依赖程度也越来越高。计算机软硬件系统规模也随之日益复杂,如何保证其正确性和可靠性,逐渐成为当前理论界和产业界共同关心的重要问题。