利用HTML标签筛选网页分类样本

来源 :微机发展 | 被引量 : 0次 | 上传用户：babygnus

【摘要】

：

互联网的Web网页中蕴藏着内容广泛、形式各异的信息资源,通过网页的自动分类可以更好地对其内容进行组织和管理,加快信息检索的速度.在训练网页分类器时,对网页样本集进行有

【作者】

：

侯小静王黎明

【机构】

：

郑州大学信息工程学院

【出处】

：

微机发展

【发表日期】

：

2005年3期

【关键词】

：

超文本标识语言文档对象模型标签网页分类 HTML DOM tag Web page classification

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网的Web网页中蕴藏着内容广泛、形式各异的信息资源,通过网页的自动分类可以更好地对其内容进行组织和管理,加快信息检索的速度.在训练网页分类器时,对网页样本集进行有效地筛选有可能改善分类器的性能.文中利用HTML文档的结构特点,基于标签对网页样本集进行筛选,从中去除索引型和表格型网页,实验表明,这种方法有一定的可行性.

其他文献

SVG在变电站培训仿真系统中的应用研究

SVG技术作为一种新的Internet矢量图形标准，为基于Web的变电站培训仿真系统的实现提供了一种新的途径。在分析SVG特征与优点的基础上，探讨了基于SVG的图形发布和实时数据动态发

期刊

可扩展矢量图形变电站培训仿真系统图形Web发布sealable vector graphicstraining simulation system fo

我国当前文物保护的困境及出路探究

文物是集古人智慧、文化、艺术以及汗水为一体的历史产物,也是我国传统文化与艺术的重要载体,是我国发展进程中必不可少的文化瑰宝,对研究古代文明历史和科技发展起到决定性

期刊

文物保护困境出路

数码相机电源的低成本

期刊

数码相机电源镉镍电池

也谈鲁山花瓷的工艺美学价值

花瓷是唐代豫西地区创烧的新品种。其中,鲁山段店窑产品种类丰富,品质上乘。在工艺上,花瓷改变了单色釉一枝独秀的面貌,在酱釉或其他深色底釉之上采用涂、刷、点、抹、浇、甩

期刊

鲁山段店窑分相釉唐钧工艺美学

NET Remoting分布式框架在电子监察系统中的应用

分布式体系结构是构建企业应用系统的首要选择。为了解决了分布式系统所面临的性能和资源共享问题，采用．NET Remoting分布式技术，利用它的高效通信和复杂对象模型，克服XML Web服

期刊

分布式NETREMOTING性能资源共享电子监察系统distributed. NET Re noting performance resou

开利30H×C100／F半封闭螺杆式冷水机组故障代码报警含义及排除方法（上）

期刊

海尔彩电D29FV6-A8K技术点

海尔V6系列A8数字彩电具备数字DVI接口的同时可以达到顶级高清同时兼容1080I 50HZ／60HZ，1080P 50HZ／60HZ，720P 50HZ／60HZ，576P，480P等所有高清、标清显像格式，打破了传统彩电只能接收

期刊

海尔彩电数字彩电FV720P接收数字信号DVI接口技术格局兼容

新时代如何发挥革命类纪念馆的教育功能

革命类纪念馆是党和国家的红色基因库,是开展爱国主义教育、革命传统教育、青少年思想教育的重要场所。文章针对新时代如何发挥革命类纪念馆的教育功能进行调查研究,结合广西

期刊

爱国主义革命类纪念馆教育功能因素策略

行业性博物馆文物保护修复实践与思考——以上海中国航海博物馆馆藏金湖牛皮礁出水古木舵藏品保护修复为例

2014年,上海中国航海博物馆调研启动馆藏上海金湖牛皮礁出水保护修复项目,2018年11月项目通过专家验收。上海中国航海博物馆作为一家暂不具备文物修复资质的行业性博物馆,在

期刊

行业性博物馆出水木舵保护修复

变频空调器的故障自诊断代码表及检测流程图（上）

期刊

利用HTML标签筛选网页分类样本

其他学术论文