重复串特征提取算法在不良信息检测中的应用

来源 :第三届全国信息检索与内容安全学术会议 | 被引量 : 0次 | 上传用户:ferer1019
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
根据同一类文档的主题相关性,利用文档实例集中频繁出现的一组重复子串作为该类文档的特征描述,设计了基于重复串的特征提取算法。该算法避免了分词处理。实验表明,能够降低特征维数,有效提高不良信息检测的效率。
其他文献
彩叶植物是园林植物的重要组成部分,它能弥补一般植物的不足,极大地丰富城市的色彩。通过对长沙市彩叶植物的调查发现,长沙市有彩叶植物76种,归属于48属,39科。它们在园林中的应用
宪政的合理性,主要取决于宪政价值诉求中的合理性。何谓合理,不同国度、不同时代,有不同理解。本文力图通过分析宪政的价值构造内涵,为中国实行合理化宪政提供理论参考。 Th
对居住区不同绿地类型的大气可吸入颗粒物进行了测定,结果表明小区内的可吸人颗粒物浓度表现为明显或不明显的双峰曲线,峰值分别出现在上午10:00~12:00和下午16:00。绿化条件较
观赏草是一类日益受到重视的新型景观材料。在国外,观赏草越来越多地被用于园林景观设计和道路绿化中,然而目前我国对观赏草的认识和应用甚少。为了进一步探讨观赏草在北京园
本文通过调查确定上海居住区常见的23种植物群落,定点定时测定群落的温度和相对湿度。结果表明,在夏季各群落的降温增湿能力有显著差异(F=3.701*),各群落的降温增湿能力上午9:00~1
以上海地区常用5种地被植物为研究对象,测定并计算其叶面积指数、光合效益和蒸腾效益,以此为基础,定量评价5种地被植物的生态效益。结果表明扶芳藤的铺地效果较好,亚菊释氧固碳能
搜索引擎已经成为通过网络获取信息的重要工具。一些网页通过不正当的手段。提高在搜索引擎的结果列表中获得较高的排名以获得点击量,这就是网页作弊。作弊页面的种类非常多,本
本文研究自然语言同现现象在邮件过滤中的应用,采用同现词汇对作为邮件过滤特征,通过实验对其过滤性能和效果做了详细的分析,实验显示它可以有效改善邮件过滤的性能。
垃圾邮件过滤就是在线对邮件做出Spam(垃圾)或Ham(非垃圾)的判断,这是一种根据客户反馈不断自学习的过程。本文通过抽取邮件的语言特征和行为特征构建多个简单过滤器,然后采用
荷花是被子植物中起源最早的种属之一。荷花的根为须状不定根,主根退化,不定根成束状环绕排列在地下茎节的四周,长约8~20厘米。在生长期根呈白色或褐色,藕成熟后根为黑褐色。