面向HNC的语料库软件设计与实现

来源 :中国科学院声学研究所 | 被引量 : 0次 | 上传用户:c707569552
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语料库是指为语言研究收集的、用电子形式保存的语言材料,语料库是语言学研究和自然语言处理等相关领域研究的重要工具。HNC理论作为一个中文信息处理的流派,它的发展要求HNC语料库的同步发展。本文的工作是要设计和实现一个体现HNC自然语言处理理论特色的、服务于HNC研究的语料库。   论文的主要进展和贡献如下:   (1)建立了功能完备的HNC语料库系统,包含生语料库和熟语料库,能够进行语料管理、加工、标注、检索、统计等。在系统设计上采用3层架构:应用层、接口层、实现层。接口层抽象出一套通用的语料库访问接口,能够有效隔离上层应用与底层语料库存储实现,简化了开发过程。   (2)构建了多用户语料库管理平台。在服务器上构建语料库管理平台,集中管理用户语料和公共语料。系统采用C/S模型,允许多用户并发访问,为多用户协同工作提供了一个便捷的公共平台。   (3)完善了语料库系统的功能。①在标注方面,构造了一种新的基于XML的语料标注方式,利用XML结合语言空间和语言概念空间标注信息,简化了标注过程。另外,提供了句群切分和语境单元标注工具,将HNC标注推向了语境单元层次。②在检索方面,采用Lucene全文索引技术实现了全文检索,并提供了3种HNC特征检索方式:基本检索、高级检索、XQuery检索。③在统计方面,除了常规统计外,还提供了HNC特征统计功能,设计和实现了4种HNC特征统计统计模式:数量统计、比值统计、限定属性分布统计、自定义分布统计,用户可以自由的定义统计内容,极大的满足了用户的统计需求。   (4)研究机器辅助标注。利用已有的标注语料,采用最大熵模型来解决语义块切分问题,采用基于实例的方法解决句类判断问题。   (5)建设了句类重组语料库。依托于基本语料库,按照句类重组熟语料,并提供了错误反馈和难点标注功能。  
其他文献
导弹飞行姿态信息的获取是现代化精确制导武器研究过程中的关键技术之一,而惯导系统传感方案、姿态算法、电路设计及试验环境是影响导弹姿态信息获取可靠性的主要因素。 本
神经营养素能够影响脊椎动物神经元的增殖、分化、凋亡、存活等生命过程,但其功能的发挥则需要Trk和p75NTR两种膜受体的存在。RanBPM(Ranbinding proteinin microtubule orga
在实时控制系统中由于受到场地,距离,环境以及危险性等多种原因的限制,不利于我们进行这些实时控制。本文提出一种基于Web的实时控制系统,它融合了现场采集控制技术与网络上
合成孔径雷达[1](Synthetic Aperture Radar,SAR)是一种高分辨率的成像雷达,具有全天时、全天候、高分辨率的特点,在军事和民用领域得到了广泛的应用。近年来随着合成孔径雷达的
In the genus Oryza, more than half of species are polyploids. These polyploids consist of the BC, CD, HJ and HK genome, and are distributed in Asia, Oceania, Af
随着人类开发海洋的速度逐渐加快,水声通信技术,尤其是浅海水声通信技术,越来越受到人们的重视。如何克服浅海水声信道带宽有限、多径复杂、信噪比较低、多普勒效应严重等种种限
学位
媒体应用的迅猛发展对微处理器设计提出了新的要求和挑战:处理器必须具备强大的数据处理能力和控制能力,必须提供足够的灵活性来适应快速发展的多媒体处理标准和支持各种形式的
学位
随着多媒体技术和网络技术的飞跃发展和广泛应用,迫切需要建立完善的数字产品版权保护方案来保护版权拥有者的权益。数字水印技术是一种可以在开放的网络环境下保护数字产品
摘要:《小学数学新课程标准》中指出:要让学生初步学会运用数学的思维方式去观察、分析现实社会,去解决日常生活中和其他学科学习中的问题,增强应用数学的意识。因此,在教学的过程中,教师需要把培养学生的各种行为方式和数学思维放在重要位置,在学生思维方式和行为出现偏差的时候,及时的进行纠正且进行正确的指导。通过对思维的训练,培养学生的自主学习能力,提高学生的数学素养。  关键词:思维能力;小学数学;重要方式
“多元卫星海量数据处理与存储系统”是中国科学院对地观测与数字地球科学中心(科学中心)正在开展的一个重要项目,其目的是实现数据处理与存储技术的再一次升级,完成数据处理系