【摘 要】
:
命名实体识别属于自然语言处理的基础研究领域,是信息抽取、信息检索、机器翻译、组块分析、问答系统等多种自然语言处理技术的重要基础。因此,对命名实体识别的研究具有很大
论文部分内容阅读
命名实体识别属于自然语言处理的基础研究领域,是信息抽取、信息检索、机器翻译、组块分析、问答系统等多种自然语言处理技术的重要基础。因此,对命名实体识别的研究具有很大的实用意义。本文针对现代汉语文本的特点,主要研究以人名、地名和组织名的识别为核心内容的中文命名实体识别问题,我们以一种较新型的统计模型--条件随机场为基本框架,设计并实现了一个中文命名实体识别系统。具体说来,本文的主要内容如下:本文首先分析了命名实体识别的难点,人名、地名、组织名的相关语言学知识,并对现有的一些命名实体识别方法和中文命名实体识别系统进行了简要介绍。接着,详细介绍了条件随机场的定义、模型结构、势函数、参数估计和训练方法、概率计算方法等。进一步地,将条件随机场模型应用于中文命名实体识别任务,提出了适合于各类中文命名实体的特征模板,并通过实验进行验证,确定了有效特征。本文最后,实现了一个基于条件随机场的中文命名实体识别系统,系统采用了层叠结构,以模型训练模块和命名实体识别模块作为系统的核心组成部分,在低层条件随机场模型中进行人名、简单地名以及简单组织名的识别,低层的识别结果传递到高层模型,再进行复合地名与复合组织名的识别。实验结果表明,基于条件随机场的中文命名实体识别系统能够获得较为满意的效果,在对2004年863中文命名实体识别评测语料的开放测试中,系统识别的精确率、召回率和F值分别为82.50%、76.04%和79.14%。
其他文献
内耗是国有企业的顽症,严重影响文化氛围、工作效率和市场竞争力。因而,对其进行深入分析和治理研究具有重大的理论意义和实践价值。本文对国有大型企业集团管理系统内耗首次
我国的房地产业经过20几年的发展,取得了显著的成效,为加快住房建设的步伐,有效启动住房消费,改善居民的住房条件发挥了积极的作用,同时促进了国民经济的发展和人民生活水平
水是生命之源,人类生产活动和社会发展都离不开水,随着经济社会发展对水的需求越来越大,造成在一些地区,尤其是水资源本来就奇缺的干旱区生产生活用水挤占生态用水,从而导致生态环
目的分析动态增强CT扫描对肺内硬化性血管瘤影响诊断的价值。方法以2015年11月~2018年11月收治的40名疑似肺内硬化性血管瘤患者为研究对象,分别开展CT平扫与动态增强CT扫描,分
国家电网有限公司2018年第四季度工作会议提出,产业单位要坚定不移去低端、提中端、创高端,推动业务整合与结构调整,不断提高市场竞争力。$$南瑞集团坚决贯彻落实公司党组决策部
对2003—2012年佛山市职业病诊断病例的职业病种类、用人单位性质、年龄分布等进行统计分析。结果显示,10年来佛山市职业病仍然以尘肺病为主,职业中毒及职业性噪声聋呈上升趋
通常,在分子水平上将有机组分引入无机材料中可以提高其韧性、成膜性;反之,将无机组分引入有机材料中则可以提高其刚性、耐热性和耐老化性能。将有机、无机组分进行分子级复合,使
近年来,突发性公害危机在各个国家时有发生,这些危机不仅是一个国家的灾难,也是对人类文明的巨大冲击。各国政府在面对这些公害危机时,取得的管理经验可以为其他国家的政府学
针对模拟采出液和三元复合驱矿场采出液,研究了破乳剂对复合体系界面张力和膜强度的影响.破乳剂浓度增加,二元复合体系界面张力降低,而三元复合体系界面张力升高.破乳剂分子部分顶
燃油税改革是我国交通与车辆税费改革的一部分,是进一步深化和完善财税体制改革的重要内容。但是,燃油税改革提出至今十余年未得以实施而陷入某种困境。本文对中国燃油税改革