论文部分内容阅读
随着医疗大数据时代的来临,电子病历的知识挖掘和利用受到越来越多的关注。电子病历本身是一种半结构化的数据,其结构化的内容为计算机自动抽取和分析提供了便利,同时,非结构化数据的规模远大于结构化数据,并且蕴藏着丰富的医疗知识和患者的健康信息,但计算机处理起来也更加困难,成为电子病历知识获取的主要障碍。电子病历的知识获取过程一般分为语言分析和信息抽取两个阶段进行,词法分析和句法分析是主要的语言分析手段,为信息抽取提供必要的条件。本文主要研究针对中文电子病历子语言特征的特殊词法和句法分析模型。具体研究任务包括词性标注、组块分析和句法分析,在这三个任务中,词性标注是自然语言处理的基础研究,后两个任务的研究工作多数都是基于自动词性标注结果展开的,而组块分析和句法分析是自然语言的结构化过程,能够有效辅助电子病历信息抽取,特别是实体关系抽取的研究。本文的主要研究内容包括以下四个方面。1.优化开放领域词法和句法分析模型,提出基于多层协同纠错算法的层次句法分析模型。层次句法分析是一种高效的完全句法分析方法,但是逐层组块分析导致错误累积问题严重,本文提出了一种简单可行的错误预判及协同纠错算法,每层组块分析时跟踪预判错误标注结果进入下一层,利用两层预测分数相结合的方式协同纠错,使层次句法分析在保证解析速度的同时,获得与主流中文句法分析器相当的解析精度。2.构建中文电子病历词法和句法标注语料,首次提出了从电子病历数据预处理到语料标注的整体方案,并总结了中文电子病历的一系列子语言特征,为后续的词法和句法分析模型研究奠定了基础。数据预处理阶段,为了更好地表示电子病历中的未登录词以及隐私类别间的依赖关系,本文将长短期记忆网络分成“字级”和“词级”处理,并引入转移矩阵对依赖关系建模,进一步提高长短期记忆网络识别电子病历隐私信息的效果。3.针对中文电子病历子语言特征构建词性标注和组块分析模型。词性标注方面,首次将基于字的中文分词和词性标注联合模型引入到中文电子病历中,并利用基于变换的错误驱动模型进行后处理纠错。组块分析方面,为解决中文电子病历各部分数据差异问题,提出了基于词聚类特征和结构化支持向量机的组块分析模型,并通过分组学习框架缓解该类问题;为解决中文电子病历科室差异问题,提出了基于改进结构对应学习算法的中文电子病历跨科室组块分析模型。4.针对中文电子病历子语言特征构建句法分析模型。针对中文电子病历模式化强的子语言特征,首次以树片段形式化中文电子病历复用的模式,提出了面向数据句法分析和层次句法分析融合模型。树片段抽取是该模型的基础,本文提出效率更高的标准树片段和局部树片段抽取算法,获得了标准树片段库和局部树片段库。基于上述两个树片段库,提出词汇、词性混合匹配和最大化树片段组合算法优化面向数据句法分析过程,缓解了无效树片段带来的噪声。综上所述,子语言特征是中文电子病历区别于一般限定领域本文的主要体现,本文通过进行语料标注和统计分析工作,发现了中文电子病历一系列子语言特征,并将其成功运用到词法和句法分析模型构建上,取得了一些初步的研究成果。我们希望这些研究成果能够进一步推动自然语言处理技术在中文电子病历上的发展。