COMMIX系统中基于RSS的Web新闻自动提取子系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:zcc8541099
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的迅速发展,Internet上各种领域的信息越来越丰富,如何对所需求信息进行高效的访问成为日益重要的问题。Web信息集成系统提取来自异种数据源网页中的数据,集成到XML或者关系数据库中,并提供统一的结构化查询、数据挖掘和其他信息服务,是了一种新型的Web访问方式。Web信息集成系统的应用,促进了Web信息提取方法的研究。其中,针对新闻领域信息提取的研究是一个重要的方面。由于Web新闻源的内容更新很快,而信息集成系统保证数据的一致性,需要在较短的时间内完成高质量的数据的提取和集成,这要求信息提取系统具备较高的自动化程度和即时响应的能力。 在本文中分析了Web信息提取相关研究以及应用情况,在当前COMMIX原型系统的基础上,利用了当前Web新闻领域中广泛应用的RSS技术,将人工生成包装器的过程,转化为由系统自动建立从网页的HTML数据到提取结果的结构化数据之间映射的过程,从而实现了Web新闻的自动提取。 此方法的创新处包括: ●提出了利用RSS信息自动生成提取模式的方法,根据RSS与新闻网页之间的映射关系,在网页中自动定位兴趣域节点,取代了人工在样本网页进行标注的方式,实现了提取模式生成过程的自动化; ●设计了基于特征的段落匹配算法——FPM算法,针对提取模式生成过程中的正文段落识别问题,利用了同类节点之间结构和样式的特征构造启发式的匹配算法,根据初始的节点识别其他所有同类段落节点; ●设计了扩展样式路径——XSPath的模型,在XPath的基础上,将HTMLDOM结点的XPath拆分为基本路径和扩展样式用于编写提取模式并应用于整个提取过程中,改进了网页提取的灵活性。 此方法已经在COMMIX原型系统的基础上实现。实验证明,我们的方法在准确、高效的提取Web新闻的同时,减少了整个网页提取流程的的人工干预,对于结构不同的网页具有良好的适应性,提高了COMMIX系统在提取新闻时的自动化程度。
其他文献
掌纹识别技术是利用人的手掌掌纹图像进行身份认证的一种生物特征识别技术。视频掌纹识别技术作为掌纹识别发展的一个方向,具有采样简单、信息丰富的特点,是一个值得深入研究的
网格公共支撑平台使用网格技术将广域网上分散、异构、局部自治的巨大资源整合起来,作为一种网格中间件为网格应用提供一个强大的开发、运行和管理环境。信息服务是网格公共支
基于构件的软件开发是解决软件危机的一条现实有效的途径,它利用构件的可复用特性减少了软件开发中的重复劳动。对于面向对象软件系统而言,构件可以是类、类树、类簇,甚至是一个
随着无线网络的普及,基于位置的服务逐渐引起了人们的研究和应用兴趣,并且在入侵检测、家庭监护、社交网络和导航上获得了广泛的应用,但是这些应用都依赖于高精度的室内定位
随着互联网技术的快速发展,网络业务的需求日新月异,用户与数据量的快速增加,人们对数据内容本身的关注与需求愈加强烈,对传统的TCP/IP互联网架构提出巨大的挑战。为了加快数
本文结合了作战演练仿真的应用背景,探讨了军事应用背景下的大规模虚拟环境中的一些特殊问题,也围绕一般意义上的通用三维引擎所面临的关键技术做了一些工作,具体如下:场景图是三
随着社会的发展,人们对软件的要求越来越复杂。很多软件开发方法应对这样的挑战所采取的措施之一是使用软件开发工具来解决一些问题。 OMG发布的UML是一种广泛被接受的建模
随着嵌入式系统的应用越来越广泛,嵌入式系统应用程序的优化方法越来越受到关注。针对嵌入式系统的特点,如何减小应用程序代码大小也成为研究热点之一。 在分析和研究链接时
随着Internet的高速发展,Web信息集成系统得到应用和推广。Web信息集成系统能够提取网页中的数据,并将其集成到XML或关系数据库中,提供结构化查询、数据挖掘和其他信息服务。网
随着移动互联网的飞速发展,WLAN得到广泛应用,大量部署的无线接入点AP为广大移动终端用户提供网络访问服务。随着AP本身硬件配置的提升,如何利用AP的计算与存储能力提升网络业务