中文电子病历的词法和句法分析研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:liongliong600
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着医疗大数据时代的来临,电子病历的知识挖掘和利用受到越来越多的关注。电子病历本身是一种半结构化的数据,其结构化的内容为计算机自动抽取和分析提供了便利,同时,非结构化数据的规模远大于结构化数据,并且蕴藏着丰富的医疗知识和患者的健康信息,但计算机处理起来也更加困难,成为电子病历知识获取的主要障碍。电子病历的知识获取过程一般分为语言分析和信息抽取两个阶段进行,词法分析和句法分析是主要的语言分析手段,为信息抽取提供必要的条件。本文主要研究针对中文电子病历子语言特征的特殊词法和句法分析模型。具体研究任务包括词性标注、组块分析和句法分析,在这三个任务中,词性标注是自然语言处理的基础研究,后两个任务的研究工作多数都是基于自动词性标注结果展开的,而组块分析和句法分析是自然语言的结构化过程,能够有效辅助电子病历信息抽取,特别是实体关系抽取的研究。本文的主要研究内容包括以下四个方面。1.优化开放领域词法和句法分析模型,提出基于多层协同纠错算法的层次句法分析模型。层次句法分析是一种高效的完全句法分析方法,但是逐层组块分析导致错误累积问题严重,本文提出了一种简单可行的错误预判及协同纠错算法,每层组块分析时跟踪预判错误标注结果进入下一层,利用两层预测分数相结合的方式协同纠错,使层次句法分析在保证解析速度的同时,获得与主流中文句法分析器相当的解析精度。2.构建中文电子病历词法和句法标注语料,首次提出了从电子病历数据预处理到语料标注的整体方案,并总结了中文电子病历的一系列子语言特征,为后续的词法和句法分析模型研究奠定了基础。数据预处理阶段,为了更好地表示电子病历中的未登录词以及隐私类别间的依赖关系,本文将长短期记忆网络分成“字级”和“词级”处理,并引入转移矩阵对依赖关系建模,进一步提高长短期记忆网络识别电子病历隐私信息的效果。3.针对中文电子病历子语言特征构建词性标注和组块分析模型。词性标注方面,首次将基于字的中文分词和词性标注联合模型引入到中文电子病历中,并利用基于变换的错误驱动模型进行后处理纠错。组块分析方面,为解决中文电子病历各部分数据差异问题,提出了基于词聚类特征和结构化支持向量机的组块分析模型,并通过分组学习框架缓解该类问题;为解决中文电子病历科室差异问题,提出了基于改进结构对应学习算法的中文电子病历跨科室组块分析模型。4.针对中文电子病历子语言特征构建句法分析模型。针对中文电子病历模式化强的子语言特征,首次以树片段形式化中文电子病历复用的模式,提出了面向数据句法分析和层次句法分析融合模型。树片段抽取是该模型的基础,本文提出效率更高的标准树片段和局部树片段抽取算法,获得了标准树片段库和局部树片段库。基于上述两个树片段库,提出词汇、词性混合匹配和最大化树片段组合算法优化面向数据句法分析过程,缓解了无效树片段带来的噪声。综上所述,子语言特征是中文电子病历区别于一般限定领域本文的主要体现,本文通过进行语料标注和统计分析工作,发现了中文电子病历一系列子语言特征,并将其成功运用到词法和句法分析模型构建上,取得了一些初步的研究成果。我们希望这些研究成果能够进一步推动自然语言处理技术在中文电子病历上的发展。
其他文献
移动Agent(MA)是一个独立的计算机程序,它可以自主的在异构网络上按照一定的规程流动,寻找合适的计算资源、信息资源或软件资源,从而利用与这些资源同处一台主机或网络的优势,处
论文阐述了供应链管理的基本概念和理论,对供应链管理下的供应商与制造商之间关系的变化进行了深入的剖析,强调了与战略性供应商建立战略合作关系的必要性.论文对战略供应商
电信管理网(TMN)技术是目前国际上流行的电信网络管理技术。它是一个具有体系结构的数据网,既有数据采集系统,又包括这些数据的处理系统,可以提供一系列的管理功能,并在各种类型
随着电子技术和通信技术的发展,不同的终端显示设备、不同的通信网络状况、不同消费用户的需求都对视频编码提出了多元化的要求,随之产生的问题是如何在一次编码过程中形成视频
伴随着Internet网络规模的不断扩大,多媒体技术的飞速发展,人们对网络服务的要求也不断提高。而目前的“尽力而为”(IPv4)的方式已越来越难以满足人们的需要。因此可以在新一代
信息系统领域传统的数据库技术是以单一的数据资源为中心,主要进行事务处理的操作型数据处理工作,对于决策分析等分析性工作的功能是有限的,只能提供预先定义好的简单的统计
本课题的研究重点就是在基于无线网络的警务移动办公业务这一新的应用领域中,如何区分登录用户身份的真假、如何保证对登录用户的访问控制,防止越权操作、内部信息以及个人隐
离散小波变换(Discrete Wavelet Transform)因其良好的多分辨率分析特性和时频域局部特性,被广泛地应用于信号分析、图像编码压缩、模式识别以及机器视觉等各领域。目前已有的
识别文本中时间关系是深层语义理解的基础,是问答系统、信息抽取和文本摘要等诸多应用的关键。所谓时间关系,就是文本中事件之间、时间之间、事件和时间之间的时序关系。目前
图象变形作为基于图象绘制技术(IBR)的一个分支,已在虚拟环境(VE)建模的许多场合得到运用。本文首先回顾了VE建模的三种主要途径,系统的综述了各种图象变形方法的原理与实现。