基于最小语言学资源的资源受限领域命名实体识别

来源 :第六届全国青年计算语言学会议 | 被引量 : 0次 | 上传用户:likang281116
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何在资源匮乏的大规模数据(如互联网纯文本数据)上识别命名实体是一个重要的问题。为解决该问题,我们使用简单的词典资源自动标注数据,然后将命名识别问题转化为基于最大熵马尔可夫模型的序列标注问题。我们使用两种方法搜索结果:1)输出标注序列,并使用重排序方法对k.Best结果进行重排序;2)使用变种的前向.后向算法计算出候选命名实体的概率,并使用阈值过滤。实验表明,使用后种方法可以极大地提高命名实体识别的召回率和F值,并可以更加灵活地根据需求控制准确率与召回率。
其他文献
本文考察了国内基于WordNet的本体构建研究现状,从基于WordNet结构、多渠道获得概念和关系以及基于有向图等三个方面分类评述了其主要方法,归纳出语义相似度计算、核心本体构建
会议
本文提出汉藏基本名词短语对齐框架。从汉语基本名词短语出发,找藏文正确译文过程中,参考英汉短语对齐的方法,针对藏文语言的特殊性,提出基于中心语块扩展的藏文基本名
会议
A proper quantitative understanding of the dynamic interaction between gas-phase semivolatile organiccompounds (SVOCs) and airborne particles is important for h
会议
以现有的词典资源和分类体系为基础,我们提取了航空领域的主要概念并揭示了概念之间的关系,形成航空领域概念分类谱系,最后构建了一个俄汉双语航空领域本体知识库。将俄汉两种语
汉语分词粒度对统计机器翻译系统性能影响深远。在专利文献中存在着大量的专业术语,适当的专业术语分词粒度,可有效提高统计机器翻译系统性能。为了提高机器翻译性能,
会议
提出了一种基于维基百科的汉日双语命名实体对自动获取方案。基本思想是先从维基百科中抽取汉日双语标题对作为训练数据,训练一个统计机器翻译系统;再抽取汉语或者日
会议