【摘 要】
:
当前网络色情信息、反动言论、暴力等有害信息泛滥,而主题分类等方法对过滤这些信息显得力不从心。为更好的过滤网络中有害信息,将信息分类为无关信息、积极信息和消极信息三
论文部分内容阅读
当前网络色情信息、反动言论、暴力等有害信息泛滥,而主题分类等方法对过滤这些信息显得力不从心。为更好的过滤网络中有害信息,将信息分类为无关信息、积极信息和消极信息三个类别并提出进行文本态度倾向性过滤的必要性。在分析当前文本态度倾向性分析技术的基础上,本文所作的工作如下:1、针对分类中高维性和稀疏性两大难题,在总结了当前特征降维方法的基础上,提出了组合特征提取算法。该算法结合CHI和IG的特性,既有利于高频特征,又有利于只出现在少数类中且能强烈表现文本语义信息的中低频特征。2、为有效过滤无关信息并使过滤模型逐步逼近用户的真实需求,提出了用户信息反馈和阈值过滤策略,设计了基于SNoW算法的主题分类模型,具有排除无关信息和将有关信息分类到特殊领域类的双重功能。3、为更准确的体现文本语义,在更细粒度层面上分析作者的立场态度,本文提出了基于语法语义规则和统计相融合的文本态度倾向性识别算法。该算法将SVM的特征进行广义延伸,将倾向性词语和红黑特征库所组成的短语搭配、BOW等作为SVM分类器的特征,体现了文本的语义约束。4、设计并实现了基于文本态度倾向性分析的网络内容审计系统。实验证明,该系统实现了对文本高准确率、高效的立场倾向性识别。总之,本论文比较全面的论述了基于文本态度倾向性分析的网络内容审计模型的设计和实际系统的设计与实现方法。重点阐述了主题分类中的组合特征提取算法、基于用户信息反馈和阈值策略的自适应算法、基于语法语义规则和统计相融合的文本态度倾向性识别的分析方法,对以后的文本倾向性研究有着一定的意义。
其他文献
随着网络技术和网络应用的发展,网络安全问题显得越来越重要。分布式拒绝服务攻击(DDoS,DistributedDenialofService)是近年来对Internet具有巨大影响的恶意攻击方式,给互联网造
论文首先简要介绍了PSTN和IP网络,论述了PSTN网络与IP网络的互联互通在下一代网络发展过程当中扮演的重要角色,并给出了解决方案,引出了本文论述的主要对象中继网关。中继网
电网企业领导在指挥生产和管理中,需要及时了解电网实时信息,以便做出正确的决策。这时就需要一个能实时显示电网工作状况并且能关联生产管理系统的具有高实用性的“电网安全
由于广播环境、音质、功耗等因素的影响,调幅广播正在由传统的模拟信号向数字信号转变。DRM数字广播系统已成为从模拟广播向数字广播过渡的主要手段和更新换代的重要方向。本
网络的拓扑结构可以用图来表示,称为网络拓扑图.可以通过研究图的性质来研究网络的结构.研究图的性质的理论是图论,图论在计算机科学中的应用非常广泛.例如在开关理论与逻辑设
网格是一种新型的分布式计算技术,是信息社会的网络基础设施,网格是继传统因特网、Web之后的第三代因特网应用。网格的目的是把整个因特网整合成一台巨大的超级虚拟计算机,实现
为了从本质上解决当前互联网存在的问题,各国都致力于研究全新的下一代互联网架构,命名数据网络(NamedDataNetwork)是其中最具竞争力的一个项目。NDN以内容名字取代了传统网络
受虚拟现实技术飞速发展的驱动和客观应用需求的牵引,虚拟人技术逐渐成为虚拟现实技术的一个重要分支,虚拟人的路径规划问题作为该领域的一个重要研究方向,已经成为新的研究热点
Web服务的产生和发展使得人们可以不论平台、不论地点、不论时间地使用模块化的应用程序。然而用户在使用Web服务之前并不知道它的存在,这就涉及到服务的发现和定位问题。目
模型驱动架构(MDA)是对象管理组织(OMG)于2002年提出的新一代的业务生成方法。在过去的五年中,MDA技术取得了很大发展,被应用到诸如电信、航空航天、银行以及医疗卫生行业。