论文部分内容阅读
DeepWeb中蕴含的信息越发庞大并且价值可观。但是由于DeepWeb信息的高度异构性、自主性、动态性以及不完整性,DeepWeb主题性网站的设计风格、页面结构、显示内容的不同,JavaScript技术的广泛使用等因素,使传统的抽取技术无法有效自动化集成蕴含在DeepWeb中的高质量信息资源。提出一种基于KBE(知识工程)的DeepWeb信息抽取方法。通过对目标DeepWeb的页面模式、页面HTML结构、页面视觉信息等进行分析、整合,利用HTMLDOM(DocumentObjectModel)树解析算法,