舆情搜索引擎中网页信息的采集与抽取研究

来源 :情报学报 | 被引量 : 0次 | 上传用户:glorfinde
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络舆情搜索引擎与通常的网络信息搜索不同,其最终结果要深入到站点和页面内部采集与抽取有效数据,给情报界提出了许多新的研究内容和方法。在对网页信息抽取的模板和页面分析两种方式、基于自然语言处理、包装器归纳和Ontology抽取方法的分析基础上,使用基于包装器归纳方式并在规则生成模块中采用专家模式,设计一种基于样本学习的新闻抽取方法,通过人工分析网页源代码制定和修改抽取规则,然后根据抽取规则进行信息自动抽取,以提高舆情搜索引擎的精度和质量。
其他文献
[摘要] 目的 探讨垂体腺瘤切除术经翼点入路和经鼻蝶入路不同入路的对照研究。方法 分析2008年10月~2013年10月80例资料完整的垂体瘤手术患者的临床资料,其中经翼点入路的患者46例,为对照组;经鼻蝶途径的患者34例,为观察组。对比两组手术情况以及术后并发症发生情况。 结果 观察组手术情况(手术时间、术中出血及住院时间)明显优于对照组,术后并发症发生少,且复发率低,差异具有统计学意义(P<0
本体与大众分类中标签的结合研究是目前相关领域的研究热点,国内外众多学者针对标签的多样性、模糊性等缺陷,构建了多种标签本体模型,其中,Tag Ontology、SCOT和MOAT是最具典
从信息融汇过程中行业联盟成员企业构建行业知识库的实际背景出发,在考虑了行业知识库的公共物品属性和“公共地悲剧”的基础上,建立了行业知识库构建过程中企业间组织行为的博
检索结果聚类是提高检索性能的一种有效手段.其中,如何衡量文档间的相似性是影响聚类质量的关键因素.针对XML文档的内容和结构双重特性,提出了内容与结构语义相融合的扩展向
国务院总理李克强日前在新加坡出席了新加坡工商联合总会和中华总商会联合举办的欢迎晚宴,他在致辞中表示,过去40年,中国依靠改革开放,发生了翻天覆地的变化.新加坡的发展也
构建应急预案本体,可提供对该领域知识一致的共同理解,实现应急管理中多部门的业务协同与信息共享。为此,采用当前比较成熟的本体工程方法,对应急预案相关概念、属性及其关系