论文部分内容阅读
近年来,随着互联网的不断发展和普及,信息爆炸已成为这个互联网时代的代名词。然而,随着信息量以几何级数增长,通过信息检索获得的数据量依然十分庞大,需要对于这些数据进一步处理,从而获取有用的结构化信息。在此背景下,利用信息抽取技术从半结构化或非结构化网页中抽取用户所需信息显得尤其重要,这成为推动Web信息抽取研究发展的原动力。Web信息抽取中的一个重要的问题是跨领域的信息抽取。所谓跨领域是指抽取方法对不同主题和不同形式文本的适应能力,即快速适应领域变化的能力。但目前还没有一个较为通用、能够适应多种领域信息抽取任务的Web信息抽取解决方案。本文针对该问题,提出一种基于特征模型的Web信息抽取方法,该方法能够快速适应信息抽取任务的领域变化,主要工作和创新点包括以下几个方面内容:(1)本文认为信息抽取中的跨领域问题的核心在于特征的领域相关性,许多特征本身就同某个信息抽取主题或文本形式相关联,信息抽取方法对领域的依赖本质上是由特征引入的。针对这一问题,本文尝试分解领域相关特征,获取领域弱相关的子特征,并构建特征模型。利用该模型,能够对特征和信息抽取任务之间的匹配度和区分度进行评价。基于该特征模型,本文提出了一种能够快速适应领域变化的信息抽取方法。该方法采用了反馈迭代优化推理模型的机制,能够针对特定信息抽取任务快速获取针对该领域的特征组合,从而适应领域的变化。(2)在上述跨领域信息抽取方法的基础上,本文引入遗传基因算法,通过特征的遗传、突变、杂交等手段实现了一种特征选择和组合的反馈迭代算法。利用该方法能够有效的获取适应应用领域的特征组合。(3)针对信息抽取特征选择遗传算法中的性能优化问题,本文探讨了特征向量空间初始化中的存在的冷启动问题,提出解决该问题的三种特征向量初始化的方法,并且通过实验对比分析了各自的优缺点。同时,针对每次遗传迭代后的特征向量评价问题进行了详细的分析,提出了基于模拟赌盘方法的特征向量保留方法。实验结果表明,该方法能够使遗传迭代快速收敛至最优解,并降低了产生局部最优解的可能。(4)针对信息抽取特征选择遗传算法中的效率问题,本文提出了遗传基因衰减方法和特征向量降维方法。实验结果表明,这两种方法能够在确保一定准确率的前提下显著提高遗传迭代速度。