基于多策略学习算法的竞争关系抽取技术研究

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:ylovew
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体关系抽取是指从无结构的自然语言文本中抽取实体之间的语义关系,并以结构化的形式表示出来。它是篇章理解的一个核心技术,在机器翻译、信息检索、问答系统、知识图谱构建等领域均得到广泛应用。传统的关系抽取方法只注重一种特定类型的数据源,并需要标注大量的训练数据来训练抽取模型,人工成本高。  竞争情报分析是企业风险管理和决策支持的关键因素之一,它依赖于包含大量竞争信息的知识库。各种各样的财经网站(如雅虎财经)已经手动收集了大量企业的竞争信息,我们可以把这些竞争信息作为知识库。然而,财经网站具有不完整、缺乏竞争领域以及不能及时更新的问题。百科数据(如维基百科)是一个基于集体智慧构建的百科全书,它包含大量以各种结构呈现的有用信息。因此,百科数据可以有效的解决上述问题,帮助构建一个更加综合的知识库。  本文提出一种新颖的基于多策略学习算法的半监督方法,用于从维基百科识别竞争对手和竞争领域信息来补充雅虎财经上的竞争信息。准确的说就是综合结构化和非结构化两种数据源,先从结构化数据中抽取竞争关系,然后使用基于规则的推理方法推理出更多的竞争关系,这些关系作为远程监督学习的种子,用于从无结构文本中抽取竞争关系。考虑到可以从事件中推理出竞争信息,本文使用基于机器学习的分类方法识别事件描述分句。整个过程是迭代的,实验结果表明本文方法的有效性。
其他文献
大屏幕交互在会议、演讲、火车站、博物馆等场合扮演着很重要的角色,在这些不同于以往桌面交互的新交互场景中,用户多需要站在一定距离之外与大屏幕交互,整个交互过程没有支撑平
机器学习在多个领域得到广泛应用。随着计算能力的提高,使得贝叶斯网络这种学习方法成为研究的热点。生成式概率图模型是贝叶斯网络的特例。所谓的生成式模型是指其网络结构提
随着互连网从传统PC蔓延到移动领域,海量信息数据存储技术也得到了快速发展,其中,Hadoop云计算平台技术是许多企业处理大数据的首选。Hadoop平台的优势在于大数据的分析处理以及
随着计算技术的进步、硬件水平的不断提高,以及互联网的广泛应用,软件已经摆脱传统的固定的输入输出模式,交互式系统日益多样和复杂。传统的界面由于缺乏主动满足多种用户需求(如
目标跟踪在运动目标的视觉分析中占有重要的地位,属于视觉的中层部分。目标跟踪是通过对摄像机所拍摄的视频图像序列进行处理,找出连续图像帧间的对应关系,实现对图像和图像
互联网信息的指数级增长,使得搜索引擎成为互联网上最广泛的应用。随着用户对检索结果要求的提高,搜索技术面临着越来越严峻的挑战。语义Web的发展,为提高搜索技术指明了新方向
学位
随着计算机网络与信息技术的发展,传统的单机版数据挖掘软件由于其庞大臃肿的应用程序、对用户机器硬件要求较高、软件更新周期长且不易维护等,已经无法很好地满足用户的需求
执行重放技术在诞生之初是用于重现并行程序的并发性错误。随着其研究的不断深入特别是与虚拟化技术进行融合后,虚拟机执行重放技术可用于虚拟机迁移、虚拟机调试、虚拟机容错
随着企业信息化建设的不断深入,网络基础设施、服务器、中间件、操作系统、数据库、业务系统等IT基础设施变得越来越庞大和复杂,系统维护工作量和工作难度越来越大,业务对IT系统