【摘 要】
:
命名实体是文本中基本的信息元素,是正确理解文本的基础,广义地讲,命名实体不仅包括具体的或抽象的实体,如:人、地点、组织等,还可以包括时间数量表达式等。在现代汉语中运用
论文部分内容阅读
命名实体是文本中基本的信息元素,是正确理解文本的基础,广义地讲,命名实体不仅包括具体的或抽象的实体,如:人、地点、组织等,还可以包括时间数量表达式等。在现代汉语中运用广泛的数量短语,是命名实体的重要组成部分,因此数量短语识别效果的提升可以有效提高自动分词、信息抽取、机器翻译等自然语言理解后续工作的效率。
本文主要采取基于规则的方法来研究数量短语的自动识别。所谓的基于规则,也就是从实际语言现象入手,通过考查现代汉语中数量短语的特点(包括内部组成结构和外部存在环境)来总结数量短语的各种构成模式,并把这些模式与计算机易于处理的形式结合起来作为识别的根据。
本文通过收集语料,并采用一定标注规范对收集到的语料进行标注(主要是对其中数量短语有关的相关信息进行标注),建立了一个小型语料库。然后,我们通过分析语料库中标注的相关信息来总结数量的短语结构特征与使用习惯等属性,建立了服务识别需要的知识库。
以上的工作完成后,笔者利用C#程序设计语言,采用面向对象设计的方法,设计并实现了一个现代汉语数量短语自动识别的程序,最后,我们对程序运行的结果进行了测试与总结,并分析了其中主要存在的问题。
最后实现的程序基本上达到了预期的要求,取得了较好的效果,说明基于规则的自动识别方法是一种行之有效的方法,值得研究与探索。
其他文献
汉语是“SVO”结构形式的独立语,韩语是“SOV”结构形式的黏着语,这是两种属于不同语言体系的语言。本文在对比语言学和第二语言教学的范畴内,将汉语中的“V+NP”形式作为基
钟吕八仙是深受人们喜爱的神仙群体之一。这个神仙群体中的人物,从唐宋时开始出现,到元代已经正式成为一个组合演绎各种故事,这一群体的出现和发展极大地丰富了人们的生活。明清
吴语的量词,承担着复杂多样的性质功能,其词汇语法的特征表现在吴语方言乃至南方方言系统中十分显著。本文以浙江桐乡话中量名结构独立使用并表示有定这一特殊现象为重点考察对
随着中泰两国在各个方面关系的日益密切与加强,这几年泰国的汉语热不断升温。泰国教育部制定了泰国汉语发展计划。虽然也有一些幼儿园已开始把汉语课程作为幼儿教学课程,但幼
本文以在汉语语法史中占有重要地位的《朱子语类》名词谓语句为考察对象,运用定量分析与定性分析相结合、共时描写和历时分析相结合以及归纳总结与演绎阐发相结合的研究方法,尽
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
曹丕和曹植的比较研究多局限在二人的思想性格、人生道路、文学思想、诗歌方面,本文从“汉音”到“魏响”诗歌风格变化的进程中,对二人进行对比研究,详细论述曹丕诗歌的歌诗特色
偏误分析是第二语言教学与研究中的重要方面,通过对留学生使用目的语时出现的偏误进行研究,可以对学生掌握目的语的情况有所了解,从而确定教学的重点和难点,使第二语言教学的
篇章语言学自二十世纪五十年代发展成为一门独立的学科,语言学家们逐渐认识到对语言的研究不应局限于句子平面,而应突破句子的范围,研究比句子或语段更大的语言单位即语篇,研
语块是语言学研究同认知科学和计算语言学相交叉产生的一个概念。本文首先简单回顾了语块理论的产生发展和定义分类,并仔细梳理了汉语研究学界对语块的现有研究成果。针对现