论文部分内容阅读
专有名词的自动识别(ProperNounDetection)对自然语言处理领域的“信息提取”,“机器翻泽”,“自动问答系统”,“自动摘要”等系统影响较大。目前存在各类专有名词(简称专名)识别的多种方法。本文提出并尝试了基于串频统计的专名识别技术。这里主要利用了未词性标注的语料(以下称生语料,Untaggedcorpus)中出现n元串(n-gram)的频率和它们的前缀,后缀,前词,后词等信息。然后按照这些信息分配给每个n-gram能成为专有名词的概率值。该概率值越大相应的n-gram越有可能是一个专有名词。本文首先分析了n-gram提取和筛选的现有方法。然后实现基于串频统计的专名识别系统并对各个系统的效率进行对比。本系统以UNICODE(UTF-8)编码作为输入文字编码。因此系统能处理支持UNICODE的所有文本。它能够从输入的生语料中有效的识别出人名,地名,团体机构名等。此系统除了对中文语料进行测试和研究外,还对南亚地区大语种如:‘孟加拉语’语料进行测试,分析孟加拉文中出现大量的专名,使得本系统能够支持不同语言并保证其稳定性。