【摘 要】
:
Web信息提取是指从Web文档中自动提取出所需信息的过程。本文研究Web信息提取并应用于面向主题的搜索引擎中,这里的主题是针对于中文人名的查找。 本文主要的工作是针对有
论文部分内容阅读
Web信息提取是指从Web文档中自动提取出所需信息的过程。本文研究Web信息提取并应用于面向主题的搜索引擎中,这里的主题是针对于中文人名的查找。 本文主要的工作是针对有关Web上中文人名的信息,研究Web信息提取技术,设计搜索引擎中的信息提取模块,并进行实验测试。本文从网页内容中提取关于人名的四个属性(出生年份、职业、相关地点、相关机构)。 论文中详细说明了信息提取模块的系统流程设计和流程中各个子模块的实现方法以及使用到的具体技术。针对不同的人名网页内容类型,本文使用了相应的提取模式的方法。对于“个人介绍类”网页,本文使用了知识工程方法(Knowledge Engineering Approach),人工构建了模式库;对于“个人活动类”网页,本文使用了自动训练方法(Automatic Training Approach),提出了一种新的模式提取算法,用来自动地从训练集中提取模式。最后针对Web上的某一中文人名网页集进行信息提取实验,实验证明信息提取模块的处理效果较好,能够从网页文本中提取出比较准确的信息。
其他文献
随着互联网的迅猛发展,网络安全威胁日益增长,网络攻击的破坏性愈发严重,单纯的防火墙无法防范复杂多变的攻击,入侵检测技术应运而生。网络的入侵检测系统NIDS是入侵检测系统IDS
随着互连网技术和电子商务的迅猛发展,Internet正在前所未有地改变着我们的生活。越来越多的商品交易和服务通过Web来进行,如何更好地适应市场的变化、更好地为顾客服务成为各
随着计算技术的发展,特别是量子计算机的出现,攻击能力大幅度增强,现有基于数学困难问题的密钥体系受到了严重的威胁。物理层安全是基于信息论安全的,可以保证会话的密钥的更
Sun Microsystems公司顺应Internet和网络技术的不断发展的需求,提出了J2EE并成为标准。Java语言走进企业级应用领域的同时,人们也对安全技术提出了新的要求。一些国际大型软
集成了传感器、嵌入式计算、网络和无线通信四大技术而形成的无线传感器网络是一种全新的信息获取和处理技术,它是一种新型的无基础设施的无线网络,能够协作地实时监测、感知
本文以北京市教委科技发展计划项目“基于定量分析的软件工程监理方法学研究”和“信息工程监理协同工作平台”为背景1,以实现信息工程监理协同工作平台的研发为目的,在借鉴建
移动自组网是一种不依赖于固定基础设施的自组织无线网络,它组网方便、快捷,不受时间和空间的约束,可以在缺少传统网络设施的地区迅速展开,适用于战地部署、抢险救灾等场合。
自适应站点的理论能够解决网络信息泛滥和服务缺乏个性化的问题,是网络服务更高层次的发展目标,因此如何能够建立智能自动的适应用户各种需求的Web站点成为当前的研究热点。
本文针对目前面向农业信息的搜索引擎少,农业信息特定的搜索引擎服务还不健全,已有的农业信息搜索引擎建立的资源索引库针对性不强,Web页面排序方法单一等问题,根据农业信息多、
办公自动化技术发展到现在已经比较成熟,目前一般都采用基于工作流的系统分析模式,采用面向对象的分析设计方法,分析工作流中文档与角色,以及它们各自的属性,建立起办公自动化的模