论文部分内容阅读
本文提出了一种改进的基于TBL的日文名实体识别后处理方法。该方法首先针对日文名实体识别结果中的错误进行分析学习,得到候选规则集;然后按阈值条件对候选规则进行筛选,得到校正规则集;最后,应用校正规则集对日文名实体识别结果进行校正。该方法可以弥补统计模型的不足,自动获取专门领域的语言特征知识,避免了传统规则方法的复杂性,同时基于TBL获取的规则一般不会出现过拟合的现象。实验表明本文提出的改进的基于TBL的后处理技术对日文名实体识别效果有很大的提高。