网络信息过滤中反馈机制的研究及应用

被引量 : 0次 | 上传用户：llww6

【摘要】

：

随着Internet的日益膨胀,网络信息正以指数级的速度增长。如此庞大的信息资源,使人们获取自己所需信息的时间增长;而在其中充斥着的色情、犯罪等不良信息,严重影响了社会主义

【作者】

：

张立伟

【发表日期】

：

2010年期

【关键词】

：

文本表示特征选择隐式反馈伪反馈

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet的日益膨胀,网络信息正以指数级的速度增长。如此庞大的信息资源,使人们获取自己所需信息的时间增长;而在其中充斥着的色情、犯罪等不良信息,严重影响了社会主义精神文明的建设。这就要求我们探索信息过滤的有效方法,从大规模的动态信息流中自动筛选出满足用户需求的信息,屏蔽掉无用信息和非法信息。目前常用的信息过滤方式多样,内容分析判断过滤因具有防欺骗等特征,成为最有效的过滤方式。在内容分析判断过滤中,模板的性能决定过滤系统的过滤性能。然而,由于训练语料数量有限难以覆盖该类别所有的内容,类别模板具有狭隘性;随着时间的推移该类别新增特征词使原有分类器过时,在过滤过程中会带来分类错误和分类遗漏等问题。反馈学习是针对信息变化动态调整、完善分类模型行之有效的方法。本文结合网络信息过滤中所存在的问题,对内容分析判断中的各关键技术进行了深入的研究,提出了对类别模板进行实时更新的反馈机制,致力于保持模板在网络信息过滤过程中的先进性。本文是对网络信息过滤中反馈机制的一次探索,具有较强的理论意义和实践意义。本论文主要研究了以下几个方面:1.向量空间模型中各关键技术的研究和改进本文对向量空间模型中关键技术(数据包截获、特征选择、权重计算、分类算法等)进行了研究。网络数据采用了SPI技术在应用层进行截获,使网络数据的截获独立于特定的浏览器和邮件客户端;特征选择时,首先去停用词,继而采用Zipf定律初步筛选,最后运用组合特征选择算法进行空间降维;特征项权重计算时,首先对网络信息预处理,然后分别结合网页和邮件特征进行加权计算,提高了分类效果。2.网络信息过滤中的反馈机制鉴于模板的狭隘性、网络信息的易变性以及未标记文档的重要性,本文对反馈机制进行了重点研究。本文从反馈信息的获取、反馈信息的使用和反馈信息的评价三个方面出发,探讨了用户的相关反馈技术,并从隐反馈学习和伪反馈学习两个方面分别提出了反馈算法,对用户模板进行优化。并在本文所实现的网络信息过滤系统中对反馈前后的模板进行了性能测试,实验表明本文所提反馈机制对网络信息过滤性能的提高有明显作用。3.邮件客户端过滤网页和邮件是网络信息中两大载体。本论文在对网页信息过滤研究的基础上,对客户端邮件内容过滤进行了探索。本文根据POP3协议截获邮件,对其进行MIME协议解析,并根据内容过滤中的多层过滤机制对其进行分析过滤,从而形成了一个能同时过滤网页和客户端邮件完备的网络信息客户端过滤系统。4.网络信息过滤系统的设计与实现在对向量空间模型各关键技术研究的基础上,对每一个功能模块根据高效、实用等原则进行了设计,并最终实现了一个多策略、多层次、高效的网络信息客户端过滤系统。

其他文献

中宁话的“走”字句

中宁话里,“走”是一个使用频率很高的词,有重读和轻读两种语音形式。本文通过大量例句,对中宁话里带轻声的“走”字句加以描写,着重分析其语用、语义特征,并结合文献资料和

学位

中宁话走语义语用词义演变语法化

会话中话语意义的推断

本文从语用学研究的对象话语意义着手,从关联理论、言语行为理论等角度分析会话中话语意义的推断和话语意义的层次含义,以便交际双方在语言交流中更加透彻地理解话语意义,使

学位

推断话语关联语境言语行为

宽带双频Wilkinson功分器的研究和设计

射频识别技术(Radio Frequency Identification,以下简称RFID)是现代信息技术高速发展的产物。利用射频信号的空间耦合实现的RFID技术是一种无线的、非接触方式的自动识别技

学位

Wilkinson功分器奇-偶模分析宽带双频隔离电阻

跨境资本流动、关联交易与外汇管理

跨境关联交易是涉及境内外关联方之间转移资源或义务的交易活动,它与资本流动密切相关,对一国的外汇管理具有不可忽视的影响。在经济金融全球化的新形势下,跨境关联交易不仅

期刊

国际金融跨境资本流动关联交易外汇管理

基于奥苏贝尔学习理论分析英美高中化学教材的编排特点

教材是课程的物化产物,课程的改革首先表现在教材的改革上。随着教育的发展与变革,教材的发展正从“教材”向“学材”的转变,学习理论尤其是奥苏贝尔的认知同化学习理论为这

学位

奥苏贝尔学习理论英美高中化学教材呈现方式编排特点

石河子地区一次大雾天气的诊断分析

应用实测资料、NCEP/NCAR再分析资料对2007年2月8—13日石河子地区出现的大雾天气进行诊断分析。结果显示:地面高压、高空暖脊与大雾的形成与消散有着直接的关系;逆温层的存

期刊

大雾逆温层稳定度

基于GIS技术的陕西省设施农业越冬期低温冻害精细化风险区划——以泾阳县为例

为了掌握陕西省设施农业种植各县内越冬期低温冻害风险分布情况,以泾阳县为例,选择泾阳县9个区域气象站及周边县级气象站越冬期Tmin≤-8℃的日数(D)作为区划指标,应用GIS技术

期刊

设施农业低温冻害GIS技术精细化风险区划

乌鲁木齐市一次暴雪天气过程诊断分析

对2003年9月27～28日乌鲁木齐市暴雪天气过程的分析表明,暴雪是在伊朗副高北抬过程中与欧洲高压脊叠加发展的形势下,北方横槽、高中低空急流和北方冷空气的相互作用的结果。对

期刊

暴雪急流

复杂光照条件下的肤色检测研究

肤色检测技术的研究是目前图像识别与理解研究中的一个热点,它是很多基于肤色的应用的前期处理,如人脸检测、手势识别、敏感图像识别及过滤等。稳健的肤色检测技术是这些计算

学位

皮肤检测颜色空间光照处理纹理特征灰度共生矩阵

高山姬鼠胴体重长指标的变化规律

采用胴体重与体长的比值作为胴体重长指标KWL’。对2008—2010年贵州省大方县捕获的285只高山姬鼠(雌鼠138只,雄鼠147只)胴体重长指标进行分析表明,高山姬鼠胴体重长指标在1.

期刊

高山姬鼠胴体重长指标变化规律贵州省

网络信息过滤中反馈机制的研究及应用

其他学术论文