论文部分内容阅读
实体关系抽取是指从无结构的自然语言文本中抽取实体之间的语义关系,并以结构化的形式表示出来。它是篇章理解的一个核心技术,在机器翻译、信息检索、问答系统、知识图谱构建等领域均得到广泛应用。传统的关系抽取方法只注重一种特定类型的数据源,并需要标注大量的训练数据来训练抽取模型,人工成本高。 竞争情报分析是企业风险管理和决策支持的关键因素之一,它依赖于包含大量竞争信息的知识库。各种各样的财经网站(如雅虎财经)已经手动收集了大量企业的竞争信息,我们可以把这些竞争信息作为知识库。然而,财经网站具有不完整、缺乏竞争领域以及不能及时更新的问题。百科数据(如维基百科)是一个基于集体智慧构建的百科全书,它包含大量以各种结构呈现的有用信息。因此,百科数据可以有效的解决上述问题,帮助构建一个更加综合的知识库。 本文提出一种新颖的基于多策略学习算法的半监督方法,用于从维基百科识别竞争对手和竞争领域信息来补充雅虎财经上的竞争信息。准确的说就是综合结构化和非结构化两种数据源,先从结构化数据中抽取竞争关系,然后使用基于规则的推理方法推理出更多的竞争关系,这些关系作为远程监督学习的种子,用于从无结构文本中抽取竞争关系。考虑到可以从事件中推理出竞争信息,本文使用基于机器学习的分类方法识别事件描述分句。整个过程是迭代的,实验结果表明本文方法的有效性。