基于本体的面向股票领域搜索引擎的实现技术研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:zhouyongaaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今互联网搜索引擎主要分为通用搜索引擎和面向领域的搜索引擎(也称为垂直搜索引擎),而后者又成为搜索引擎技术发展的一大趋势。因为在某些用户有特定要求的领域,通用搜索引擎存在着许多弊端,比如索引内容无法覆盖某一特定领域,海量存储不利于索引内容的实时更新等等。这些都需要在面向领域的搜索引擎中加以解决。本文首先深入介绍了通用搜索引擎的基本原理,结构和工作机制。在此基础上阐释了目前面向领域的开源搜索引擎中比较流行的Lucene技术,这项技术也是本文其他部分实现的基础。在数据采集方面针对通用搜索引擎网络爬行器(Crawler)在专业性数据采集上能力不强的弊端,设计实现了面向领域的聚焦网络爬行器(Focus Crawler),有效地改善了面向领域的搜索引擎的效率。然后介绍了网页数据抽取技术的基本原理并实现了基于统计的网页正文信息抽取方法。通过对若干股票类网站的网页分析,可以得出该方法在具有通用性的同时,保持了较高的准确性,其准确率可以达到90%以上,具有一定的实用性。再者,目前搜索引擎在检索时主要还是基于传统的“关键字匹配”,而每个领域都有自己专用的词汇和用语,并且同一个词在不同领域会有不同的含义,再加上用户进行Web信息检索时输入的关键词通常比较简单,从而导致通用搜索引擎的查询结果集膨胀,查准率低,用户必须在大量的与自己查询意图相关和不相关的结果集中寻找自己需要的东西。由于本体是知识表示模型中最有表达能力的一种模型,又具有其他知识表示模型的特征,因此利用本体所具有的知识表示和描述能力,可以提高用户提问和检索语言在语义上的一致性,从而获得预期的检索效果。本文详细介绍了本体论的相关原理,并在此基础上将本体技术应用于本检索框架中,设计实现了一套面向股票领域的检索系统框架。实验结果表明,该检索框架能够基本满足领域内知识的检索需求,在检索时间,查准率和查全率上相对于大型通用搜索引擎也有了一定程度的提高。
其他文献
访问控制(access control)就是通过某种途径显式地准许或限制访问能力及范围的一种方法。通过访问控制服务,可以限制对关键资源的访问,防止非法用户的侵入或者因合法用户的不慎
1983-1984年间,齐东旭教授与冯玉渝教授提出了一类新的正交完备函数系,被称为U系统。U系统是分层次的,完整的说法是“k次U系统,k=0,1,2,3…”。零次U系统(k=0)就是walsh正交函数系,k
本文对考试系统及其组卷算法进行了研究。文章对考试系统进行了需求分析,设计了考试系统的结构,并对系统进行了详细设计。系统共包含六个子系统,分别是题库维护和管理子系统、组
RFID(Radio Frequency Identification射频辨识系统)最近两年在国内外受到广泛关注,被很多专家认为是将来的产业明星。但是目前,RFID还未形成统一的全球化标准,增加了应用系统开
随着计算技术的发展,一种新的计算模式——普适计算,将根本性地改变人们使用计算机的方式。具有计算和通信能力的设备渗透到我们生活的每个角落,这些大量的可见的或者不可见的无
随着音频视频会议、多媒体广播、网络协同工作组的出现与迅速发展组播被广泛应用于一点到多点(one-to-many)和多点到多点(many-to-many)的通信中。安全组播需要满足:机密性(g
本文介绍了一种基于三星32位嵌入式网络微处理器S3C4510B的网络监控系统,主要实现了故障检测与自动定位、流量统计和入侵检测三个基本的网络管理功能。在系统的设计中,采用集中
电信运营企业是高技术密集型企业,也是较早使用数据库和数据库管理系统的企业,在多年的运营中积累了大量的历史数据。同时现在电信行业的竞争正变得越来越激烈,如何拓展市场,如何
在互联网这个信息海洋中,人们越来越感到信息的泛滥和查找的艰辛,于是用户便希望拥有一块根据自己的需要而显示相应信息的“私人空间”,基于用户的需求和自身发展的需要,向用户提
随着移动互联网的发展,智能移动终端的安全问题也益发严峻,作为最主流的移动操作系统之一,Android以其开放性和实用性获得了广泛的应用市场,但作为一个注重功能的系统,Android的安