论文部分内容阅读
因特网的飞速发展,使其成为迄今为止最密集、最丰富的新闻信息来源。伴随着因特网的广泛应用,网络中的新闻信息迅速地积累、膨胀,新闻信息的利用需求与要求也不断提高,同时XML结构化语言、全文检索等技术也正由兴起走向成熟。通过网络人们每天接收着海量的新闻信息,新闻浏览者面临着信息选择的巨大困扰,因此,在庞杂的新闻信息中及时、准确地抽取、检索出用户感兴趣的信息已成为一个非常重要的研究课题。但目前新闻信息的抽取技术和抽取系统,还不能满足信息使用者“个性化新闻推送”、“新闻全文检索”等要求。现有的新闻抽取技术的局限性主要体现在:1、信息抽取对象单一,目前的信息抽取技术多是针对HTML页面进行的,但由于HTML语言自身的局限性,它已经越来越不能满足现代信息发布和接收的要求,结构化的XML将逐渐取代目前使用的HTM[1],因此仅针对HTML的信息抽取已不能满足当前的发展需要。
2、呈现给用户的抽取信息个性化程度低,现有的“新闻阅读器”,仅能将新闻按照新闻发布的逻辑单位(频道)进行显示,而不能将新闻按照用户的自身特点进行聚合推送。
3、新闻信息的抽取显示与检索相分离,现有新闻抽取技术多是仅实现信息的抽取,为信息的检索提供数据源,而不能实现新闻的聚合显示;而“新闻阅读器”又仅是对网络中现有的新闻信息进行聚合显示,不进行抽取信息的存储,因此无法提供良好的检索机制,也无法显示网站中的“过期”新闻。
为了实现新闻信息的抽取、检索,本文在研究了结构化信息源RSS和Lucene搜索引擎的基础上,构建了同时具有新闻信息抽取聚合功能和新闻信息全文检索功能的“新闻信息抽取系统”。该系统采用了高内聚低耦合的框架设计方案,使系统具有良好的可扩展性;实现了针对结构化信息源RSS的信息抽取以及新闻的聚合、联合显示;通过对核心抽取模块的扩展,实现了抽取信息数据的存储、“过期”新闻信息的回顾、“冗余”数据的清洗和系统的国际化支持;实现了以Lucene技术为基础的新闻全文检索模块,在模块中对Lucene进行了有效地扩展,完成其支持中文的设计并以相关度算法为基础实现了查询结果的相关度排序显示。
论文的主要工作:
1、确定了高内聚低耦合的设计框架,在框架下开发了新闻抽取和新闻检索核心模块。依据松散耦合的设计两模块均可自成系统独立工作,分别形成“RSS新闻浏览器”和“Lucene新闻全文检索系统”,在本文中将两模块进行了集成,以实现功能更为完善的“新闻信息抽取系统”。
2、分析了结构化信息源RSS,深入研究了其组成元素的特点、信息组织结构、信息发布标准,并着重考察了当前普遍应用的信息发布标准RSS2.0,为信息抽取系统的设计、开发奠定了基础。
3、提出了针对结构化信息源的抽取方案,设计了RSS信息源(RSSfeed)的解析器,实现了信息抽取系统的设计,完成了新闻信息的聚合、联合。
4、扩展了新闻信息抽取系统的核心模块。实现了新闻数据的存储,为新闻信息检索提供了数据源;完成了“新闻信息回顾”模块的开发,使系统支持“过期”新闻信息的回顾;依据新闻信息自身的特点,完成了针对冗余新闻信息的数据清洗;实现了系统的国际化,使系统支持27种不同的语言。
5、研究了Lucene搜索引擎技术,并对其进行了有效地扩展,实现了模块对中文的支持和查询结果的相关度算法。完成了针对新闻抽取模块获取新闻信息的“Lucene新闻全文检索系统”。