基于特征模型的跨领域信息抽取方法研究

被引量 : 0次 | 上传用户:heimacom
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网的不断发展和普及,信息爆炸已成为这个互联网时代的代名词。然而,随着信息量以几何级数增长,通过信息检索获得的数据量依然十分庞大,需要对于这些数据进一步处理,从而获取有用的结构化信息。在此背景下,利用信息抽取技术从半结构化或非结构化网页中抽取用户所需信息显得尤其重要,这成为推动Web信息抽取研究发展的原动力。Web信息抽取中的一个重要的问题是跨领域的信息抽取。所谓跨领域是指抽取方法对不同主题和不同形式文本的适应能力,即快速适应领域变化的能力。但目前还没有一个较为通用、能够适应多种领域信息抽取任务的Web信息抽取解决方案。本文针对该问题,提出一种基于特征模型的Web信息抽取方法,该方法能够快速适应信息抽取任务的领域变化,主要工作和创新点包括以下几个方面内容:(1)本文认为信息抽取中的跨领域问题的核心在于特征的领域相关性,许多特征本身就同某个信息抽取主题或文本形式相关联,信息抽取方法对领域的依赖本质上是由特征引入的。针对这一问题,本文尝试分解领域相关特征,获取领域弱相关的子特征,并构建特征模型。利用该模型,能够对特征和信息抽取任务之间的匹配度和区分度进行评价。基于该特征模型,本文提出了一种能够快速适应领域变化的信息抽取方法。该方法采用了反馈迭代优化推理模型的机制,能够针对特定信息抽取任务快速获取针对该领域的特征组合,从而适应领域的变化。(2)在上述跨领域信息抽取方法的基础上,本文引入遗传基因算法,通过特征的遗传、突变、杂交等手段实现了一种特征选择和组合的反馈迭代算法。利用该方法能够有效的获取适应应用领域的特征组合。(3)针对信息抽取特征选择遗传算法中的性能优化问题,本文探讨了特征向量空间初始化中的存在的冷启动问题,提出解决该问题的三种特征向量初始化的方法,并且通过实验对比分析了各自的优缺点。同时,针对每次遗传迭代后的特征向量评价问题进行了详细的分析,提出了基于模拟赌盘方法的特征向量保留方法。实验结果表明,该方法能够使遗传迭代快速收敛至最优解,并降低了产生局部最优解的可能。(4)针对信息抽取特征选择遗传算法中的效率问题,本文提出了遗传基因衰减方法和特征向量降维方法。实验结果表明,这两种方法能够在确保一定准确率的前提下显著提高遗传迭代速度。
其他文献
设计并实现了一种基于FPGA的电子密码锁,具有解锁、报警、修改密码、死锁等功能。利用FPGA器件本身具有的并行性和其逻辑电路的本质,实现了高效、可靠的密码锁设计;采用基础
21世纪是互联网、电子商务高速发展的时代,是网络在线购物极为时尚、疯狂的时代。由于网络的飞速发展,人们由台式电脑转向便携式的智能设备(手机、PDA等),这些设备和台式电脑
文章综述了近年来国内外含硝基苯废水处理技术的研究进展,并对其发展趋势进行了展望。硝基苯是一种具有较高化学稳定性、高毒性及环境积累性等的优先控制污染物。近年来对含
人文精神与文学的关系是20世纪90年代以来的理论热点。文学人文性是人文精神融入文学活动后,通过文学作品和文学的现实关系所表现出的审美价值属性。不能简单地用人文精神的
讨论了《透水混凝土路面技术规程》(DB11/T775-2010)和《再生骨料透水混凝土应用技术规程》(CJJT253-2016)两部标准中关于连续孔隙率试验方法的准确性、实用性和可操作性。通
我国城市化进程不断加速,大中小城市的规模与数量与日俱增。城区面积的日趋扩大,使得城市绿化事业也得到迅猛发展。必然导致了我国城市园林绿化废弃物的总量不断攀升,然而传
在中华人民共和国成立60周年庆典阅兵式上,我院研制的“野营多功能净水车”和“整体自装卸野战加油站”两型后勤装备庄严驶过天安门广场,分别成为我军参加国庆阅兵式的第一型野
期刊
高压橡皮成形工艺因其独特的优点在航空制造业中占有重要的地位,高压橡皮成形过程中可能产生材料起皱、开裂和不贴模等缺陷。就凸弯边高压橡皮成形而言,其主要成形缺陷是凸缘
提高贫困地区的自我发展能力是扶贫开发和消除贫困的第一必要条件。新疆贫困地区的发展有着自身的独特性,新疆贫困地区自我能力的提升绝不是靠简单的“大面积的开发”、“大
在机器人、虚拟现实及CAD/CAM等领域中,物体之间的碰撞检测是一个关键问题,其基本任务是确定两个或多个物体彼此是否发生接触或穿透。本论文在分析总结国内外各种碰撞检测算