基于内容的Web敏感信息识别与过滤

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:aidanzeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网是当今最大的信息资源库之一,其信息发布的及时性与全球互联性使得其对整个社会的发展起着巨大的影响。由于互联网相关技术飞速发展,它已经影响到了日常生活的方方面面,对整个社会起着革命性的影响。网络在为人们提供各种前所未有的便利的同时,也为有害信息的广泛传播提供了便捷。这些信息特别是敏感信息对社会尤其是未成年人的影响日益引起人们的极大关注。如何净化网络环境,有效识别并过滤有害信息成了当前迫切需要解决的问题。   由于敏感信息过滤必须建立在敏感信息的高效识别基础上,因此本文将从三个方面入手来解决该问题:一是互联网敏感文本的理解识别;二是融合文本和图像进互联网敏感网页进行识别;三是实际过滤系统的设计与构造。主要的贡献和工作有:   (1)提出了一个基于语义与统计的敏感文本识别算法。通过对关键词的语义分析,把关键词集合分为三个类别。对这三类关键词给出了描述性的定义,并借鉴细胞神经网络理论来构造一个类细胞神经网络描述三类关键词之间的关系用来提取文本的敏感语义特征。最后利用统计机器学习理论来构造分类器。   (2)提出了一个利用web结构信息进行图像与文本融合的算法。图像信息和文本信息以一种有序的方式位于同一个网页上,这种有序方式体现了丰富的语义信息。基于这些认识,把网页分为三类。经过观察与分析,只有以图像为主的网页才需要进行信息融合,同时利用web挖掘技术对web信息进行初步处理,可以把问题转化为已知类别先验的条件下,如何判断一个集合是否为敏感的决策问题。利用Bayes定理我们可以推导出一个决策公式出来。这个公式充分体现了网页的特性,实际也取得了很好的效果。   (3)提出了一个合理的web信息过滤框架。基于对网页三个类别划分,设计了一个合理的框架,可以对三种形式的网页能够很好的过滤。克服了目前所存在的方法基本上只能过滤某种特定类型形式网页的局限性。   (4)设计并实现了一个敏感信息过滤插件。   (5)设计并实现了一个敏感信息主动搜索系统。
其他文献
近年来随着科技的不断进步,工业水平相应地也有所提高,与之而来的对热处理工艺水平也提出了更高的要求。在热处理过程中一般用组态软件进行过程监控。其中组态王是工业控制中使
在考古发掘过程中,发掘人员主要采用传统工具取土。为更好地保护文物,在无法确定文物的具体位置、大小和埋深的情况下,发掘人员只能小心翼翼逐层(几个厘米)取土。这样工程进度缓
本文结合频闪成像技术和相移显微干涉技术,建立了MEMS-DMs静态及离面运动测试系统,提出新的用于恢复离面运动信息的双向相位展开算法,提出了基于可靠性的相位解缠算法,并实现对可
脑与计算机界面(Brain Computer Interface(BCI)),一项正在兴起的技术,给我们提供了一种新的交互界面。这种技术可以把我们的大脑活动转化为控制信号来控制计算机,机器人等外部
网络化制造业为企业快速响应市场、降低成本、提高核心竞争力提供了有利条件,成为现代制造系统的发展趋势。然而,它也为企业传统的生产管理与控制问题,包括调度方法提出了很
在移动机器人目标跟踪领域,粒子滤波是常用的目标运动估计算法之一。传统粒子滤波器通常使用单一的运动模型,无法适应目标在多种运动模式下的跟踪问题。本文通过提取目标运动过
在网络服务质量路由研究中,基于多个约束条件建立的网络模型可以更准确地反映实际的QoS路由选择问题。这种多约束条件的网络服务质量路由问题是寻找同时满足两个以上路径约束
本论文涉及的科研课题来源于航天某研究所,论述了用于某武器性能测试的目标模拟二维运动控制系统的工程设计和关键技术问题的研究。论文首先介绍了二维运动支架的机械结构组
学位
随着微处理器技术和电力电子技术的发展,设计基于先进控制策略的全数字交流异步电动机调速控制系统变得更为方便。交流调速控制一直是自动化领域内一个重要的研究领域,而在异步