Web新闻信息抽取系统设计

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:xiawayu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
因特网的飞速发展,使其成为迄今为止最密集、最丰富的新闻信息来源。伴随着因特网的广泛应用,网络中的新闻信息迅速地积累、膨胀,新闻信息的利用需求与要求也不断提高,同时XML结构化语言、全文检索等技术也正由兴起走向成熟。通过网络人们每天接收着海量的新闻信息,新闻浏览者面临着信息选择的巨大困扰,因此,在庞杂的新闻信息中及时、准确地抽取、检索出用户感兴趣的信息已成为一个非常重要的研究课题。但目前新闻信息的抽取技术和抽取系统,还不能满足信息使用者“个性化新闻推送”、“新闻全文检索”等要求。现有的新闻抽取技术的局限性主要体现在:1、信息抽取对象单一,目前的信息抽取技术多是针对HTML页面进行的,但由于HTML语言自身的局限性,它已经越来越不能满足现代信息发布和接收的要求,结构化的XML将逐渐取代目前使用的HTM[1],因此仅针对HTML的信息抽取已不能满足当前的发展需要。 2、呈现给用户的抽取信息个性化程度低,现有的“新闻阅读器”,仅能将新闻按照新闻发布的逻辑单位(频道)进行显示,而不能将新闻按照用户的自身特点进行聚合推送。 3、新闻信息的抽取显示与检索相分离,现有新闻抽取技术多是仅实现信息的抽取,为信息的检索提供数据源,而不能实现新闻的聚合显示;而“新闻阅读器”又仅是对网络中现有的新闻信息进行聚合显示,不进行抽取信息的存储,因此无法提供良好的检索机制,也无法显示网站中的“过期”新闻。 为了实现新闻信息的抽取、检索,本文在研究了结构化信息源RSS和Lucene搜索引擎的基础上,构建了同时具有新闻信息抽取聚合功能和新闻信息全文检索功能的“新闻信息抽取系统”。该系统采用了高内聚低耦合的框架设计方案,使系统具有良好的可扩展性;实现了针对结构化信息源RSS的信息抽取以及新闻的聚合、联合显示;通过对核心抽取模块的扩展,实现了抽取信息数据的存储、“过期”新闻信息的回顾、“冗余”数据的清洗和系统的国际化支持;实现了以Lucene技术为基础的新闻全文检索模块,在模块中对Lucene进行了有效地扩展,完成其支持中文的设计并以相关度算法为基础实现了查询结果的相关度排序显示。 论文的主要工作: 1、确定了高内聚低耦合的设计框架,在框架下开发了新闻抽取和新闻检索核心模块。依据松散耦合的设计两模块均可自成系统独立工作,分别形成“RSS新闻浏览器”和“Lucene新闻全文检索系统”,在本文中将两模块进行了集成,以实现功能更为完善的“新闻信息抽取系统”。 2、分析了结构化信息源RSS,深入研究了其组成元素的特点、信息组织结构、信息发布标准,并着重考察了当前普遍应用的信息发布标准RSS2.0,为信息抽取系统的设计、开发奠定了基础。 3、提出了针对结构化信息源的抽取方案,设计了RSS信息源(RSSfeed)的解析器,实现了信息抽取系统的设计,完成了新闻信息的聚合、联合。 4、扩展了新闻信息抽取系统的核心模块。实现了新闻数据的存储,为新闻信息检索提供了数据源;完成了“新闻信息回顾”模块的开发,使系统支持“过期”新闻信息的回顾;依据新闻信息自身的特点,完成了针对冗余新闻信息的数据清洗;实现了系统的国际化,使系统支持27种不同的语言。 5、研究了Lucene搜索引擎技术,并对其进行了有效地扩展,实现了模块对中文的支持和查询结果的相关度算法。完成了针对新闻抽取模块获取新闻信息的“Lucene新闻全文检索系统”。
其他文献
现场总线是用于过程自动化和制造自动化最底层的现场设备或现场仪表互连的通信网络,是现场通信网络与计算机控制系统的集成。现场总线的节点是具有综合功能的智能仪表,现场总
本文首先指出了在目前广泛应用的传统软件工程方法开发软件产品所存在的问题,对比分析和研究了敏捷软件开发与传统软件工程的区别,引入了敏捷软件开发的概念和内容。然后详细介
当前,建筑业的审核、算量、施工等设计后工序仍停留在人工读图的状态。VHEasyQS作为第五代算量软件,在设计时直接生成完整的建筑物三维模型并实现构件间全局搭接关系分析,真正做
开发企业级管理信息系统须符合企业的实际业务需求,尽可能易于重用和扩展,需要快速且高效地进行开发,确保可以及时投入使用。为满足这些要求,应采用N层软件体系结构以及快速有效
随着信息技术的发展,可以利用的信息资源越来越丰富。人们难以从这些资源中找到自己需要的信息,因此,自动问答、信息检索、信息抽取等技术应运而生。自然语言处理技术作为这些应
联机分析处理技术和数据挖掘技术都是决策支持的重要技术,两者在决策分析过程中可以分工合作、功能互补。但是两者的产生背景、发展历程、数据基础、分析层次、用户群等方面存
随着进化计算的迅速发展和普及,进化计算领域的分支——遗传程序设计的研究在90年代后达到了高潮。遗传程序设计算法是根据生物学原理对个体(计算机程序)进行生物学意义上的优
随着计算机技术的发展,嵌入式系统已成为计算机领域的一个重要组成部分,并成为近年来新兴的研究热点。嵌入式系统是由嵌入式处理器,相关支撑硬件和软件构成,而嵌入式处理器是构成
通过无线网络进行音视频等多媒体数据的传输是目前的一个研究热点。然而,无线信道本身存在误码率高、延迟大、传输速率低等缺陷,因此如何提高传输可靠性一直是无线视频传输研
随着集成电路工艺的发展,芯片的集成度越来越高,工作频率越来越快,相邻信号线之间的噪声相对越来越大,由此引起的信号完整性问题已成为影响集成电路系统的功能及性能的重要因素。