一种自动抽取Web数据对象的方法

来源 :计算机应用与软件 | 被引量 : 4次 | 上传用户：zhzh06014201

【摘要】

：

在信息检索领域,数据抽取技术已成为研究重点之一。提出一种基于DOM树的Web数据对象自动抽取方法。该方法首先将网页解析为DOM树,然后将结构相似的子树抽取出来作为候选数据对象,接着再计算候选数据对象的内容相似度,内容相似度低的则为数据对象。实验证明该方法能够有效地将各种Web数据对象从网页中抽取出来,召回率和准确率都比较高,且该方法独立于领域,独立于Web数据对象的表示形式,较好地解决了Web数据

【作者】

：

刘桂峰李林崔志明

【机构】

：

苏州大学智能信息处理及应用研究研

【出处】

：

计算机应用与软件

【发表日期】

：

2009年06期

【关键词】

：

数据抽取信息检索 WEB挖掘知识获取 Data Extraction Iniormation retrieval Web mining Knowledge

【基金项目】

：

国家自然科学基金项目（60673092）,2005年度教育部科研重点项目（205059）,教育部“高校博士学科点科研基金项目”（20040285016）.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

两个门限签名的密码分析

为克服合谋攻击,文献[5,6]通过引入成员身份代码参数分别设计了一个门限签名方案。通过对这两个方案进行分析,针对其漏洞提出了一个伪造攻击方法。任何人对于任意消息都可用该攻击方式产生有效签名,从而说明其方案是不安全的。该伪造攻击的提出,为新的门限签名方案的设计提供了有效借鉴。

期刊

门限签名合谋攻击伪造攻击Threshold signature Collusion attack Forgery attack

网格的虚拟组织资源管理与工作流调度模型

资源调度是网格计算的重要内容。利用虚拟组织管理领域相关的网格资源,利用工作流技术组织网格任务,可以有效的降低网格调度问题的复杂性。本文提出一种调度模型,分别在工作流引擎和虚拟组织两个层次实施调度,以协调网格用户和服务提供者的不同利益,提高网格系统的性能、服务质量和易用性。

期刊

网格虚拟组织工作流调度模型工作流引擎网格计算资源管理服务提供者资源调度Grid Virtual organization Work flow

基于语句类似度优化计算的改进自动摘要算法研究

计算语句的类似度在自动问答、机器翻译、信息检索和自动摘要等算法中有着非常重要的作用。首先归纳了语句类似度计算的方法,综合考虑关键词特征、语义特征、句式特征和语句长度特征等信息并提出一种优化语句类似度计算方法,以语句权重计算方法以及冗余处理优化处理为基础,实现一个改进的自动摘要算法。通过在DUC的测评语料上进行仿真,实验结果证明了该算法对于摘要质量优化的高效性。最后,讨论了自动摘要研究存在的问题,并

期刊

语句类似度自动摘要语句权重计算冗余处理Sentence similarity Automatic abstracting Sentence-weight

血管紧张素Ⅱ受体1基因多态性与有氧能力的关联性及功能研究

研究目的:探讨中国汉族普通人有氧能力评价指标初始值和运动健身效果与AGTR1基因多态性的关联性,以期筛选出预测有氧能力个体差异的分子遗传标记,应用于大众健身方案的制定。

学位

有氧能力血管紧张素Ⅱ受体1基因单核苷酸多态性有氧运动

基于小波包变换的加权语音特征参数

提高语音识别系统识别率是语音识别技术中的一个重要的研究课题。通常由于环境噪声影响导致系统的识别准确率急剧下降。为了提高语音识别系统的识别准确率,并且使其在强噪声的环境下仍能获得令人满意的结果,在W_RAS_MFCC(Mel Frequency Cepstral Coefficients of the Relative Autocorrelation Sequences)参数提取分析和小波包变换研究

期刊

小波包变换语音识别特征提取加权带通滤波器Wavelet packet transform Speech recognition Feature extr

直击县级及乡镇眼镜店生存状态——困与惑的迷失

人们80％的知识、信息通过眼睛获得，视觉生活质量对于人类自我价值的实现有着非常重要的作用!近年来，随着社会经济的快速发展，我国需要进行视功能诊疗的人群逐年扩大：现有近视患者

期刊

眼镜店状态乡镇县级生活质量社会经济视功能发病率

创业平台、创业者与消费者价值共创过程模型:以小米为例

相较于传统孵化器,创业平台孵化成果显著。为何创业平台取得如此突出的孵化成效?本文运用扎根理论编码的案例研究方法,选取小米创业平台为研究对象,从价值共创视角对其进行了

期刊

创业平台价值共创扎根理论案例研究

赶黄草配伍葛花对乙醇诱导的细胞损伤模型的研究

目的为了探究赶黄草和葛花配伍制备的含药血清对乙醇诱导下的L-02肝细胞的影响及其机制。方法SD大鼠50只随机分为5组,分别给予赶黄草配伍葛花1:1水煎液,2:1水煎液,1:2水煎液,

学位

赶黄草葛花酒精性肝病炎性因子氧化应激

简介虚拟制造中的网络虚拟现实技术

介绍了网络虚拟现实建模语言（VRML），VRML具有动态对象描述和超链接、通用性、扩展性、易实现性等特点。VRML浏览器和生成VRML文件的工具广泛使用于多种平台的计算机，是虚拟制造VM

期刊

虚拟制造VM虚拟现实虚拟设计virtual manufacturing （VM） virtual reality （VR） network-virtu

一种自动抽取Web数据对象的方法

其他学术论文