论文部分内容阅读
语义资源是自然语言处理领域众多应用的基础。采用人工方式构建知识库需要耗费大量时间,并且由于覆盖率低而无法满足实际应用的需求。近年来基于用户生成内容的知识获取成为信息抽取领域中的研究热点。其中,维基百科作为目前最大的免费在线知识库,具有覆盖面广、准确率高、结构化强、动态更新等特点,已经被广泛地应用于语义知识抽取的各类研究中。目前针对中文维基百科的研究工作相比英文还不是很深入。
本文以基于中文维基百科的语义知识抽取为研究内容,以构建中文语义网络为目标,对维基百科中的蕴含的知识进行了挖掘与扩展。本文分别采取不同的挖掘策略对维基百科中命名实体以及命名实体的同义关系、属性关系、类别关系和相关关系进行了挖掘。通过引入了标准化和一致性检验,减少了这些语义知识在语义网络构建过程中的冲突和噪声。
在此基础上,本文给出了一种基于维基百科和模式聚类的语义关系识别方法,通过将开放文本中抽取的新的关系实例加入到已有语义网络,实现了对维基百科语义知识的扩展。在抽取过程中,我们利用了已经获取的维基百科语义信息作为背景知识,在一定程度上解决了传统方法中实体边界模糊、句子实例歧义以及表达形式多变的问题。进一步地,本文研究了抽取模式的构建、过滤和泛化方法以解决了模式通用性和准确性不足的问题。在获取的新知识加入语义网络的过程中,仍采用先验知识及启发式规则,以保持语义知识的一致性。
最后,通过实验,对本文所提的语义知识抽取方法进行了多方面的评估,并实现了一个基于维基百科的语义知识抽取演示系统,直观地展示了本文方法的效果。