一种新的Web数据抽取算法的研究与实现

来源 :西安交通大学 | 被引量 : 0次 | 上传用户:anavelgato234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文首先分析了现有的两大类数据抽取算法:自顶向下抽取算法和自底向上抽取算法.这两类算法的处理思想不同,适用场合不同,各有其优点和局限性.接着,该文提出了一种新的以XML作为半结构化数据模型的数据抽取算法:自顶向下与自底向上相结合的双向数据抽取算法(Bi-Direction Data Extraction,简称BiDDE).它同时具备两种方法的优点,又在一定程度上克服了两种方法所带来的局限性.BiDDE在分离对象时采用自顶向下的方法,既可以利用HTML标签获得较高的对象分离精度,又避免了自底向上方法中不同对象之间属性值的混淆,同时还可以实现只对文档一部分内容进行抽取;在识别每个对象的结构时采用自底向上的方法,弥补了自顶向下方法处理嵌套结构的能力的不足,同时也提高了对象筛选的精确度.此外,BiDDE采用学习方法逐渐扩展可生成的模式的种类,随着使用时间的增长,BiDDE能够生成更加精确的匹配模式.在论文的最后,以一定数量的实际的Web页面为例对BiDDE进行了实验,以验证方法的可行性、有效性和性能.
其他文献
移动代理技术的出现为上述问题提供了一种崭新的解决方案.移动代理具有移动性、自动性、个性化、智能性以及可适应性等特性,这些特性使得移动代理非常适合处理类似电子商务这
该论文着重探讨了两个方面的问题:第一,基于离散余弦变换(DCT)的数字图像水印方案;第二,基于二维离散小波变换(DWT)的数字图像水印方案.针对目前基于离散余弦变换(DCT)的图像水印方
近年来,人脸表情识别研究已经取得了很大发展,但这些工作大部分是基于二维图像或视频的,当面部姿态或光照条件发生变化时,识别效果会受到很大影响。随着三维信息获取设备的发展与
本文首先详细介绍了几种组件标准,其中主要Microsoft的COM+技术方案为例,讨论了以其为基础平台进行组件开发涉及的各项技术.然后从集成性、编程角度、可用性、可扩展性四个方
入侵(Intrusion)指的就是试图破坏计算机保密性,完整性,可用性或可控性的一系列活动。随着互联网的飞速发展,黑客入侵事件日益猖獗。根据计算机应急小组CERT的报告,每年计算机安
软件复用是解决软件危机的重要技术之一。软件复用分为基于构件的复用及基于过程的复用。基于构件复用的开发方法强调利用现有的构件构造大型软件系统。CCM、COM/DCOM、Enterp
OSPF是基于链路状态算法的动态路由协议,相对于基于距离向量算法的RIP,OSPF具有收敛时间短、占用网络带宽资源少等特点.OSPF的核心是一个分布式的、冗余的链路状态数据库,该
JUNA公钥加密方案是一种基于多变量与不确定性的公钥加密方案,它由REESSE1+公钥密码体制的加密方案发展而来,其密钥生成算法基于多变量排列问题,其加密算法基于非范子集积问题。
该论文致力于讨论在J2EE应用服务器中通过添加CORBA服务来实现CORBA和EJB这两种中间件平台的互操作.该论文首先介绍了中间件技术的起源、现状和发展趋势,并深入研究了两种典
随着计算机技术、信息处理及网络技术的迅猛发展及其应用的不断普及,关系每一位公民健康和切身利益的医疗信息系统(HISHospital Information System)的发展脚步也越来越快.建