一种基于信息熵的Web页面主题信息抽取方法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户：jiangxiaohui

【摘要】

：

提出了一种剪枝信息熵增较大结点的信息抽取方法。通过对HTML文档解析来构造DOM树，根据配置过滤掉不需处理的相关内容并建立语义模型树，最后对熵增超过阈值的结点进行剪枝并输

【作者】

：

贺智平徐学洲李爱玲

【机构】

：

西安电子科技大学软件工程研究所,西安陆军学院计算机教研室

【出处】

：

计算机工程与应用

【发表日期】

：

2007年4期

【关键词】

：

WEB 抽取 STU-DOM树信息熵 Web extraction STU-DOM tree information entropy

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

提出了一种剪枝信息熵增较大结点的信息抽取方法。通过对HTML文档解析来构造DOM树，根据配置过滤掉不需处理的相关内容并建立语义模型树，最后对熵增超过阈值的结点进行剪枝并输出抽取的主题信息页面，初步实验结果验证了用这种方法进行Web页面信息抽取的有效性。方法的数学模型简单可靠，基本不需要人工干预即可完成主题信息抽取。可应用于Web数据挖掘系统以厦PDA等移动设备的信息获取方面。

其他文献

基于概念的形状分类和识别

基于中文自然语言中的形状名词,提出了一种基于概念的形状分类方法,利用简单的形状描述参数进行二分类与利用复杂的形状参数进行模糊分类相结合的原则,实现形状分层分类。给出了17类基本形状的分类实验结果,表明该方法的可行性。

期刊

基于概念形状分类不变矩concept-based classification of shapes invariable moments

热烈庆祝沙庆林获“资深院士”荣誉暨《沙庆林院士论文选集》出版

为庆祝中国工程院沙庆林院士2010年获得“资深院士”荣誉，国家图书馆、公路学会、相关杂志社等单位协助将沙院士曾经在多种杂志和国际会议上公开发表的百余篇论文收集、整理成

期刊

院士论文出版中国工程院国家图书馆公路学会国际会议杂志社

一种新的自适应Lee图像增强算法

该文对Lee图像增强算法及其改进型算法进行了较深入的研究,发现了其存在的问题,提出了一种新的图像增强方法。该方法补充了一个有用的非线性变换,增加了原Lee算法的普适性;其次利用灰度值的统计特性达到了图像自适应增强的目的。实验结果表明:新算法不仅具有较大的适用范围,而且能够有效地增强整个图像的对比度,提高图像的视觉效果。

期刊

图像增强模糊划分自适应滤波image enhancementfuzzy partitionadaptive filtering

坦桑尼亚耐热抗旱水稻无公害高产栽培技术试验初报

水源充裕和适宜稻作的非洲国家，水稻是主要农作物之一，在东非坦桑尼亚，水稻是第二大粮食作物，Txd306是当地种植面积最大的主推品种，农业推广机构试验产量通常为5-6t·hm^-2。

期刊

水稻耐热抗旱无公害高产栽培坦桑尼亚

基于包容矩形的优化排样算法及实现

毛坯优化排样问题是CAD技术结合冲模设计领域的一大课题。论文在多边彤顶点算法的基础上，提出了基于包容矩形的优化排样算法。该算法只需在初始毛坯图的包容矩形内进行计算，即

期刊

冲裁件优化排样算法INVENTORblanking optimal layout algorithm Inventor

连续梁桥上无缝道岔和桥梁受力与变形计算分析

以单组18号无缝道岔铺设在连续梁上为例，分析不同形式连续梁对桥上无缝道岔的影响。

期刊

道岔部件连续梁墩台力梁轨相对位移turnout parts continuous beam force of pier and abutment

既有铁路线下顶进框架桥设计浅谈

结合唐山市西南环路下穿津山铁路立交桥的工程概况,简述在地下水位较高、地基承载力较差、土层边坡稳定性较差的地质情况下,既有营业铁路线下顶进框架桥时需要注意的一些设计

期刊

既有铁路顶进框架桥设计

一种新的混合变异粒子群算法

针对基本PSO算法存在易陷入局部最优点的缺点，提出了一种新型的PSO算法——混合变异粒子群算法。在每次迭代中．符合变异条件的粒子，以多种变异函数方式进行变异，而这些变异函数被

期刊

粒子群变异优化particle swarm mutation optimization

小麦病虫害防治中“一喷三防”施药时间探讨

摘要小麦是我国主要的粮食作物，在种植面积和产量上对于我国的经济结构发展有着及大的影响意义，但小麦在生长的过程中易受到蚜虫、吸浆虫、赤霉病等病虫害的影响，为降低病虫害的影响，提高小麦的产量以及种植质量，对小麦病虫害的“一喷三防”施药时间进行分析和探究，确保小麦产量的提高，完善小麦作物的质量，为农业的长远发展奠定良好的基础。　　关键词小麦；病虫害；“一喷三防”；施药时间　　中图分类号：S435.

期刊

小麦病虫害“一喷三防”施药时间

车站桩板结构的施工工艺及应用

车站桩板结构路基是高速铁路无碴轨道的一种新的结构形式,由下部的钢筋混凝土桩基和上部的钢筋混凝土承载板组成,承载板直接与轨道结构连接。它综合了板式无碴轨道或双块式轨

期刊

车站桩板结构施工工艺应用station pile-plank embankment construction technology applicati

一种基于信息熵的Web页面主题信息抽取方法

其他学术论文