基于串频统计的汉语和孟加拉语专有名词识别

来源 :北京大学 | 被引量 : 0次 | 上传用户:superzergking
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
专有名词的自动识别(ProperNounDetection)对自然语言处理领域的“信息提取”,“机器翻泽”,“自动问答系统”,“自动摘要”等系统影响较大。目前存在各类专有名词(简称专名)识别的多种方法。本文提出并尝试了基于串频统计的专名识别技术。这里主要利用了未词性标注的语料(以下称生语料,Untaggedcorpus)中出现n元串(n-gram)的频率和它们的前缀,后缀,前词,后词等信息。然后按照这些信息分配给每个n-gram能成为专有名词的概率值。该概率值越大相应的n-gram越有可能是一个专有名词。本文首先分析了n-gram提取和筛选的现有方法。然后实现基于串频统计的专名识别系统并对各个系统的效率进行对比。本系统以UNICODE(UTF-8)编码作为输入文字编码。因此系统能处理支持UNICODE的所有文本。它能够从输入的生语料中有效的识别出人名,地名,团体机构名等。此系统除了对中文语料进行测试和研究外,还对南亚地区大语种如:‘孟加拉语’语料进行测试,分析孟加拉文中出现大量的专名,使得本系统能够支持不同语言并保证其稳定性。
其他文献
在信息技术飞速发展的今天,计算机已成为人们工作和生活不可或缺的重要工具。而计算机软件是计算机的应用核心,是用户利用和掌握计算机的有力武器,因此软件的质量不可避免会成为
数据挖掘是当今计算机应用技术和理论研究中最热门的领域之一。数据挖掘技术经过十多年的发展,已经逐渐建立起系统的挖掘理论和成熟的挖掘技术。形成了以关联规则挖掘、分类规
图像识别是计算机视觉和人工智能领域的重要问题,其终极目标是使计算机具有分析和理解图像内容的能力。图像识别是一个综合性的问题,涵盖图像匹配、图像分类、图像检索、人脸检
软件产品线工程理论是一种力求通过建立强大的软件重用机制,解决软件危机的一种工程模型。当今成熟的产品线工程理论是建立在构件化软件工程基础上,以构件的开发,组装,重用机制为
受功耗制约,仅通过提高单处理器核的频率的方式,已经无法继续提高处理器的计算性能。因此,增加芯片上的处理器核数来持续提升处理器计算性能的方式,已成当今主流的体系架构发展趋
随着互联网技术的飞速发展和普及使用计算机系统和计算机网络所面临的安全问题越来越严重,不断出现的网络攻击方法使得网络攻击变得越来越容易,网络安全事件日益增多。入侵检测
在监控摄像头普及的今天,视频监控系统对维护公共安全,加强社会管理有着举足轻重的作用。目前,以人工为基础的视频监控技术存在着效率低下、工作量繁重等诸多问题。智能视频监控
城市居民地制图综合是专题要素制图综合研究的一种特例,综合的实现不仅需要遵循地理数据综合规则,以解决因表达空间缩小而造成的地物要素间的冲突;另外,城市居民地的空间分布规律
文件可信性是文件共享系统可用性的重要性能指标之一,抵御污染文件(不可信文件)的传播是保证文件共享系统高可用性的关键,但是对等网络的去中心化特点导致基于对等网络的文件共
随着软件过程技术的不断成熟,软件过程在软件开发中扮演着越来越重要的角色。软件过程已经成为开发高质量软件所必须的活动框架,软件过程的评估、控制和改进对软件产品的质量起