论文部分内容阅读
命名实体识别是中文信息处理中的关键技术,而中文姓名识别则是命名实体识别的重要组成部分,因此对于中文姓名识别的研究具有重要意义。然而目前这方面的研究主要集中在现代汉语文献领域。近年来出现很多数字化的古代汉语文献,为古代汉语文献的信息处理研究提供了良好的条件,开展古代汉语文献的信息处理研究正当其时。 本论文通过分析古人姓名及纪传体古代汉语文献的本身特点,充分挖掘、利用古代汉语文献中对识别姓名有用的各种信息,辅以从古人姓名库中获得的统计信息,借鉴现代文本中姓名识别的方法,设计了一个可以自动识别古代汉语文献中姓名的模型系统,对纪传体古代汉语文献中的姓名识别作了实验和探索。在使用编程语言(C++)实现姓名自动识别系统后,以晋陈寿的《三国志·蜀书》十五卷(每卷存为一个txt文档,共130KB)为实验文本,对系统的识别效果进行了测试,识别结果为召回率75.4%,准确率91.9%。以此实验呈现了包括命名实体识别在内的自然语言处理技术在古代汉语文献整理研究中的巨大应用前景。