基于相关实例的异构网页提取模式的自动发现

来源 :第二十二届中国数据库学术会议 | 被引量 : 0次 | 上传用户:yaya_tush
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了一种利用内容相关的网页(相关实例),自动生成异构网站提取模式或称wrapper的方法:利用全局模式和一个样本网页内容的对应,得到全局模式(GS)与一组相关实例的异构网页内容的对应,进而得到每个网页的兴趣区域位置,从而自动生成这些结构不同的网页的wrapper.
其他文献
2010年9月29日国家有关部蚕出台“新国五条”,其后,被称为“最严厉楼市调控措施”的“限购令”在全国范围内实行。限购令包括:各城市本地户籍与持居住证家庭,最多限购两套住房;外
在当今科技和信息紧密联系的时代,各研究机构需要彼此共享信息,以促进研究成果的推广,例如医疗机构可以发布医疗记录,用于流行病发展趋势方面的研究等.但是发布数据时会涉及
软件复用可以大大提高软件生产的效率和质量,是解决软件危机的重要途径之一.实现软件复用,需要具备两个条件:第一,存在大量的可复用软件构件(如COM/DCOM,JavaBean或COR-BA);
会议
战争的胜负影响到人的生死和国家的存亡,正如孙子论断:"兵者,国之大事,死生之地,存亡之道,不可不察也".制约战争胜负的因素历来是政治家、军事家、历史学家关注热点.目前对影
会议
随着XML标记语言逐渐成为Internet上数据交换的新标准,XML数据的存储、索引、查询成为了数据库技术中的研究热点.XML数据是半结构化的.XML数据查询不仅需要值查询还需要结构
基于中介模式的Web数据集成系统有两种不同的数据库模式,一个是全局的中介模式,另一个是各数据源的局部模式.用户的查询是针对中介模式的,因此必须将用户的查询改写成对数据
会议
本文内容主要包括三方面:第一,形式化的定义了语义缓存一致性维护相关的概念;第二,对以前的一致性维护工作进行了修正和补充,并分别给出4种情况下化简更新队列的优化函数,给
中国人不缺乏背井离乡的勇气和胆识,非洲是一片尚未完全开发的沃土,于是中国商人踏上了非洲的土地,但并没有如几个世纪之前的欧洲人一样,带来玻璃球和奴隶船。中国人在非洲的故事
本文基于自主计算思想,提出一种网络计算抗衰与自愈模型NCASS,该模型利用时间策略嵌套和秘密共享等技术,在监测网络故障的同时,自主更新网络计算的相应性能,从而保障网络计算
“好斗”的周鸿祎,如何一步步绕开自己埋下的“雷区”让360免于作茧自缚,并在夹缝中抢夺地盘?