Web内容过滤中的数据预处理模块设计

来源 :2004年CERNET第十一届年会 | 被引量 : 0次 | 上传用户:jifeng11111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web内容过滤是将模式识别和文本分类的方法应用于通过服务器或个人终端的数据流上,实现不良或无关信息过滤的行为模式.之后介绍了典型的数据预处理技术,指出大量无关或冗余数据以及中文字符集的多样性影响了过滤的效果.提出了改良的数据预处理模块,其中引入了主体文本提取和中文字符集自动识别转换等技术.结合实验和实际系统应用说明了改良模块的作用,并给出了进一步的努力方向.
其他文献
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
在海上勘探及航运领域,图像识别的应用范围及场景越来越多,如何提高识别的精确及效率一直是图像识别技术的关键。同时,电子海图的结构及网络深度更高,传统图像识别算法已经越
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
我国经济法起步较晚,其发展不可避免地受到传统部门法的巨大阻碍和排拒。这样使得经济法责任是否独立存在在经济法学界备受争议。本文试从经济法责任的概念、特征、内容、构