基于主动学习的汉语分词方法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:zhuav
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语分词任务是汉语信息处理的基础工作,统计机器学习算法成为该任务的主流解决方案,本文实现了基于条件随机场模型的汉语分词系统,利用模型对每个汉字进行标记并转换为相应的分词结果。该模型随着训练语料的增多,标注代价、计算规模和复杂度急剧提升,本文采用主动学习算法挑选信息量丰富的样本进行条件随机场模型训练,以达到减少训练语料、降低标注代价及缩减模型计算规模的目的。   本文重点研究了主动学习算法中的学习策略和停止策略,以使模型的迭代训练形成闭环系统,无需人工选择样本,及判定是否停止主动学习过程。考虑到样本信息量及分布特性,采用了不确定度、代表度、差异度三种学习策略,并使用层级筛选法和加权平均法将三种策略进行组合。停止策略中,确立了模型目标性能和性能提升阈值两类模型学习目标,并获取了主动学习过程中可计算指标:未标注样本置信度、待标注样本置信度和待标注样本F值。采用多元线性回归分析和移动平均时间序列分析将学习目标和计算指标关联,用以判决是否停止主动学习。   实验证明主动学习算法在基于条件随机场模型的字标注分词系统中能够大幅度的减少训练语料,使用40%的常规语料即可使模型达到相似性能;若扩大未标注语料范围,使用50%的常规语料,可使模型性能有1.08%的相对提升。同时验证学习策略、停止策略的有效性,并对策略应用条件进行分析论证,指导特定条件下主动学习策略相应参数设计。
其他文献
近年来,由于在各种电子设备、远程语音通信系统、虚拟现实以及听觉研究领域中有着广泛的应用前景,虚拟声技术成为信号与信息处理领域的研究热点之一。本文从空间听觉以及虚拟声
随着网络和通信技术的不断发展,如何合理并且有效的利用网络资源对于现有网络特别是互联网来说有着至关重要的作用。在互联网协议中广泛采用的是TCP/IP协议族,在TCP协议中,拥
《江南的冬景》从写作角度来分析,可以梳理出多角度对比、典型性选材和跨时空引用等写作特点.本文阐述作者如何选取了江南的“阳光”“地质”“雨水”三方面来谋篇布局,表达
本论文研究了未来宽带无线通信系统中的无线资源管理技术,包括蜂窝基站协作通信和多跳传输网络中的资源规划和资源分配。在基站协作和多跳传输的场景下,无线资源的分配必须同时
学位
近年来,以信息查询为目的的人机对话系统日益成为人工智能应用领域的研究热点,目前国内外有很多研究单位在进行这方面的研究。本文正是以旅游信息查询为应用背景,对人机对话系统
随着对海洋的开发和科学考察活动的增加,以水声通信技术为基础的水声通信网成为当前研究的热点方向。扩频技术(Spread spectrum technology)具有强抗干扰能力、低截获概率、支
学位
学位
可重构体系结构作为一种并行体系结构,由于同时兼具通用处理器的灵活性和专用集成电路的高效性,被视为解决应用加速的高性能方案而备受关注。传统的细粒度可重构体系结构(FGR
近几年来,随着高速数字信号处理技术(Digital Signal Processing,DSP)和模数转换技术的进步,相干光通信重新成为研究的热点。相干检测与DSP技术相结合,可以在电域进行载波相位同
基于内容的音乐信息检索是当前音乐信息检索工作的研究热点。和弦行进序列作为一种鲁棒的音乐中层特征,被应用于基于内容的音乐信息检索的诸多领域。本文围绕和弦标注问题展开