针对互联网公共服务的搜索引擎关键技术研究

来源 :东南大学 | 被引量 : 3次 | 上传用户:NF_Frankie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入21世纪,面向服务架构(SOA)被视作是企业应用开发中的重要架构而得到长足的发展。起初,SOA仅仅是作为企业内部应用的架构模式,各应用通过服务的提供与消费来降低耦合。随着互联网的高速发展,有相当多的社区和公共组织将其业务以服务的形式发布到互联网上。这类互联网公共服务并不像Web Service规范下有着严格的描述规则,而是由服务提供者自行编写一篇HTML文档进行描述。为了能够有效发现并检索这些服务,本文对面向互联网公共服务的搜索引擎技术进行了深入的研究。针对互联网公共服务的发现、索引、检索三大问题,本文主要研究工作及关键技术包括:(1)互联网公共服务发现爬虫的研究。互联网公共服务发现爬虫解决了互联网公共服务的发现问题,它通过互联网公共服务描述文档来发现服务。针对互联网公共服务描述文档多由网页脚本生成的特点,本文基于浏览器内核改进了简单网络爬虫并提出了服务参数返回值示例过滤方法,解决了文档内容获取不准确的问题。为了使网络爬虫能识别互联网公共服务描述文档,考察了多种分类算法,测定了最合适的算法及参数。(2)互联网公共服务索引技术的研究。互联网公共服务索引技术解决了互联网公共服务的索引问题,同时给互联网公共服务的检索问题提供支撑。本文采用的是词-文档矩阵作为互联网公共服务的索引机制。针对搜索引擎环境下词-文档矩阵为一个稀疏矩阵的问题,本文改进了词-文档矩阵,设计了一种压缩存储的数据结构,减少了存储空间消耗。同时,本文针对该压缩存储的数据结构设计了压缩词-文档矩阵的转置算法,仍然能够保证搜索时的性能。(3)用户搜索请求处理与执行的研究。用户搜索请求处理与执行解决了互联网公共服务的搜索问题。本文通过分词、匹配、结果合并排序三个步骤处理用户以自然语言提出的搜索请求。其中在结果合并排序阶段,本文改进了基于TF-IDF值和值的方法,设计了基于TF-IDF值均值以及标准差的排序方法,与普通搜索引擎的结果排序方法相比,能够更加准确地返回户需要的互联网公共服务。(4)在上述研究成果的基础上,本文设计并实现了一个面向互联网公共服务的搜索引擎原型系统APISE,并利用APISE从互联网抓取的实验数据,对本文关键技术及解决方案进行了实验验证,验证了本文成果能够帮助用户方便、快捷、准确地找到所需的互联网公共服务API。
其他文献
当今遥感影像数据在林业资源的管理与预测等方面扮演着越来越重要的角色,在数据量不断膨胀的背景下,如何有效地对遥感数据进行管理是当前最需要解决的问题。但是在林业资源数据中,不仅仅只有遥感数据,森林资源调查数据也是林业数据中重要的数据源,通过将两种资源进行整合,实现数据的综合利用也是未来发展的趋势。通过研究分布式技术与领域分析技术的原理及方法,对于解决遥感数据管理技术上的问题以及平台的搭建有着十分重要的
能源是经济社会可持续发展的物质基础和保障。随着我国经济的快速增长和人民生活水平的不断提高,能源供需矛盾日益突出。企业是能源消耗的主要方面,在保证最大的生产效率的前
学位
在语义Web中,本体发挥着重要的作用。但由于各领域都有自己相应的构建本体标准,本体的建立缺乏统一的标准规范,使得众多本体间存在着系统异构、结构异构、语义异构等问题。本
Web服务作为一种新型的分布式计算模型,具有高度的互操作性、跨平台性和松耦合等特点,得到了世界范围内学术界和工业界的极大关注。但是单个Web服务功能有限难以满足复杂的用户
软件的规模和复杂度越来越高,大大提高了软件漏洞挖掘的难度。人们知道软件的版本更新指示了旧版本中存在某些缺陷或修改,如何开发自动化的程序逆向分析工具用来辅助软件漏洞
学位
语义Web虽发展缓慢但却稳步发展。本体作为语义Web的核心部分受到了广泛关注并且还需寻找一些新的技术来实现本体的发展。为了使语义Web的研究切实可行,毫无疑问,本体映射和
VPN作为一种廉价安全的组网方案越来越受到企业用户的青睐。大多数现有VPN安全技术主要集中于用户身份的验证,以及传输数据保密性和完整性的保护,但是忽略了对客户端计算平台
随着计算机应用的迅速发展,Web的规模呈现爆炸式增长。搜索引擎作为人们网上冲浪必不可少的工具,得到了空前的发展。为了更好的完善搜索引擎的功能和性能,为人们上网时提供更
本文主要对PIM(Platform Independent Model)到EJBPSM(Platform Specific Model)转换进行了研究。介绍了模型驱动架构MDA的相关理论及技术,总结了对象约束语言OCL在MDA应用的