基于伪属性语义匹配的Deep web信息抽取

来源 :四川大学学报:工程科学版 | 被引量 : 0次 | 上传用户:billguo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
已有的Deep Web信息抽取算法主要对结构规范的网页进行模版的提取,目前多数Deep Web网页在结构上是非规范的,网页中记录属性字段可能缺失或重复、原子属性字段可能被html标签分隔。为了正确抽取这些非规范网页,提出了一种新方法:引入了记录的伪属性及其语义匹配概念,通过实现记录间伪属性序列的语义匹配实现信息抽取;提出了伪属性序列的模型及其语义匹配算法和记录Wrapper模型及其生成算法。实验表明,在结构不规范deep web网页的抽取上,能达到91%的查全率和93%的查准率,相对其它算法有一定优势。
其他文献
A small-sized autonomous underwater vehicle (AUV) independently developed and built by CAS researchers has been designated as an underwater guard
期刊
淋巴癌的发病年龄越来越提前,目前以30~45岁的中青年人为主,并且以男性偏多。原因可能与年轻人生活压力大、生活不规律、过度疲劳等有关,而且越年轻,淋巴细胞越有活力,也就越容易得
本文结合实际工作需要,就如何提高忠诚担当意识,提升乡政府计生办档案管理水平提出相应对策,希望能为具体工作开展提供启示与借鉴。
介绍了利用哺乳动物猪脑组织提取神经醇磷脂、卵磷脂和脑磷脂的工艺流程,并对某些关键环节进行了分析讨论,不仅为研究磷脂的生物学效应提供了原料,也为猪脑组织的综合利用开辟了
辽东湾北部地区右行走滑构造特征较为典型,主要表现为:沿走滑断裂带发育雁行式伸展断裂;剖面上发育花状构造;走滑断裂沿走向呈“S”型或反“S”型波状弯曲;沿走滑断裂带断槽与断鼻
<正>An across-strait symposium on earthquake prevention and disaster mitigation was held on 27 and 28 June in Beijing. The conference was attended by 24 CAS Mem
<正>The latest research break-through on the molecular mechanism and treatment of inflammation, contributed by scientists from the Shanghai Institutes for
分别以蒸馏水、四氯化碳为工质,流过内径19.6um光滑石英管,分别采用“单管法”和“双管法”测量微管进出口压力、温度和流量,实验得到了雷诺数(Re数)在9.6~530之间的微管内部流
<正>To acknowledge her outstanding achievements in the world of scientific and technical data,Prof. LIU Chuang with the CAS Institute of Geographical Sciences a
为革新和开发(首领) 的 CAS 中心的开幕典礼在北京在 2 月 14 日被保持。国家发展和改革委员会(NDRC ) 张晓锵的副主席和 CAS 主席团毒牙 Xin 的成员联合为新中心揭开了名牌