基于HTML Parser的网页信息提取技术研究

来源 :西藏大学学报(自然科学版) | 被引量 : 0次 | 上传用户:senkooqian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网上信息量激增,迫切需要一些自动化工具帮助人们在海量信息源中迅速找到真正需要的信息。文章基于开源项目HTMLParser包,以提取中关村笔记本频道产品信息的文本信息和图片信息为例,提出了信息提取系统设计方案,给出了文字信息和图片信息提取算法。
其他文献
本语文重点讨论了ISEE工具集成的基本机制和多层次抽象模型,并引入面向对象的PETRI网理论,用于解决工具集成的控制和实现问题。
ABC-90jr是一台SIMD型的阵列机的原理样机,它将面向图象处理、信号处理等细粒度的并行计算。本文介绍了在微机上对这种机器所实施的一种软件模拟的方法及实现的过程,并用了一个实例验证了这
本文针对机场排水设计的特点,应用专家系统理论和CAD开发技术,建立了一个基于知识的机场排水辅助设计系统。利用该系统可明显提高设计质量,缩短设计周期。
改革开放30年来,我国中小企业得到了迅速发展,已成为国民经济建设中不可或缺的重要力量。但是,由于我国中小企业数量庞大,分布在各行各业,又处在不同发展阶段,且生存形态与融资需求
MDE(Modern Distance Education)是信息技术发展的产物,具有资源共享、信息交流、交互式、个性化教学等优点。文章对MDE涉及的关键技术进行了理论上的分析,以提高该系统的使用
文章根据昌都站1971~2000年雷暴观测资料,分析了昌都雷暴的年、季、月、日、初日、终日的气候变化,以及雷暴持续期、持续时间、移动方向和强雷暴日数。结果表明:昌都雷暴集中出现
机群系统用于并行处理具有很多MPP系统所没有的优点,但要实现高性能的机群系统,则需要高带宽,低延迟的高速网络的支持。该文从软硬件结构、采用的技术及其应用实例几方面介绍了一种
信息系统的安全问题伴随着网络的普及而日益突出。根据信息安全的目标,简要分析了信息安全问题的成因及其表现,有针对地提出信息安全的防护策略。
广东省中山市人民医院创建于1950年3月16日.历经一代代人的艰辛努力.励精图治,现已发展成为集医疗、教学、科研、预防保健为一体的国家“三级甲等医院”。先后荣膺“爱婴医院”
目的明确卫生服务需方对城镇职工医保的评价,分析目前实施过程中存在的问题及原因,提出改进策略,为完善城镇职工医疗保险制度提供参考.方法运用多种社会学调查方法对某中等城