大规模非限定领域汉英双语语料库建设及句子对齐研究

来源 :全国第七届计算语言学联合学术会议 | 被引量 : 0次 | 上传用户:jiayin228699
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
双语语料库建设及其自动对齐研究对计算语言学的发展具有重要的意义.目前国内外已有的双语语料库尤其是汉英双语语料库的规模不大,加工规范不统一,没有形成能够公开使用的通用双语语料库.本文工作在国家973子课题支持下,遵循中文语言资源联盟(ChineseLDC)资源共享的宗旨,参照都柏林核元数据元素集制定了双语语料文本标注规范,并对非限定领域双语句子自动对齐技术进行了研究,为大规模建立具有统一标准和规范的、多领域、多体裁、句子级对齐的双语语言信息和知识库奠定了坚实的基础.
其他文献
本文基于卫星移动通信系统的特点和需求,结合当前国内外有关链路设计传播预测的研究现状,就卫星移动通信系统的链路设计和传播预测方面的问题进行讨论,并提出新的技术路线和解决思想,特别针对中国地区提出解决对策.
用微波折射率仪进行近海面大气波导尤其是贴海蒸发波导的测量在国内属首次,通过现场试验,证明这种方法是可行的.
简述了无线电测向系统方位校正的基本原理和方法;讨论了BP神经网络的结构特点及算法;介绍了一种基于BP神经网络的方位校正的方法,并使用实际数据进行了模拟.
由于受日月摄动的影响,地球同步卫星的轨道包含有不同周期的变化.卫星授时精度与卫星定轨精度有很大的关系.本文首先分析了时间信号的频谱特征,利用数字滤波的方法,剔除秒信号时间延迟的长期变化,研究短期变化的相位起伏特征.短期变化主要反映电离层昼夜变化的规律.最后根据陕西天文台的实际测量数据,对电离层的昼夜变化进行了分析,结果表明:电离层昼夜变化引起时间传递延迟的平均值33.9微秒,均方根值3.0微秒.
介绍了一个基于IP组播技术的数字图像监控系统,该系统利用IP组播技术实现了图像的多点传输,实际应用表明,基于IP组播技术的系统比利用单播技术的系统具有更高的的网络带宽利用率等特点.
液晶显示器以其体积小、功耗低等优点,在智能仪表和自动化设备中得到广泛应用,此文介绍了图形点阵式液晶显示器(MSC-G19264)的结构及特点,重点阐述了MSC-G19264与89C52单片机的接口设计、软件编程及其使用方法,并给出了典型子程序的流程图和汇编语言源程序.
OPTO22公司是美国专业生产计算机控制系统的重要厂家,其产品紧密结合了当飞速发展的计算机技术、网络通讯技术,其硬件产品以高可靠性而著称.此文介绍用OPTO22产品构成的智能控制系统的方法及主要技术指标.
对热轧线上垛板机的结构,工作原理以及各种动作的时序关系进行了仔细地叙述和分析,并给出了垛扳机的工作时序图,同时,对在垛扳机调试中遇到的一些实际问题提出了处理的方法,这对垛扳机的调试和维护工作具有重要的参考价值.
常规电镦工艺依靠经验来确定各工艺参数.而这些参数多为恒值,在镦粗过程中不能实时调节.本文介绍一种计算机控制的智能型电镦机.讨论了电镀速度、加热电流、镦粗压力等主要参数的控制方法,提出为保证正确的外部形状的"球形镦粗法"以及确保其内部质量的温度控制方法.
提出了一种处理钾长石的新方法--煅烧-分步浸出方法,使得钾长石中的各种元素得到综合回收。钾长石中的钾转变成硫酸钾、硅转变成白炭黑,铝转变成氢氧化铝等商品级产品。