论文部分内容阅读
随着信息技术的快速发展,以大数据和人工智能技术为牵引的智慧交通建设成为推进我国“交通强国”的重要趋势。当前桥梁工程领域已开展了较好的信息化建设,构建了多个桥梁检测、健康监测等信息化管理系统,但尚未实现由“信息化”到“知识化”的升级,面向该领域的管养决策支持不足,其智能化程度亟待进一步提升。桥梁检测领域文本是桥梁管理养护业务体系中重要的数据资源,包含大量的桥梁基本属性、结构参数和检测病害等信息。充分识别桥梁检测文本中的细粒度信息对开展桥梁结构状态评定或管养决策支持等业务有重要作用。然而,当前桥梁检测文本更多以电子文档形式存储在各类型信息管理系统中,在开展相关后续业务活动时仍主要依赖人工方式进行查阅,面向该领域的细粒度文本信息自动化抽取研究不足。近年来,以命名实体识别和实体关系抽取为核心任务的文本信息抽取方法研究取得了长足发展,能够从非结构化文本中提取有用信息并以结构化形式保存,这为进行文本数据分析或领域知识图谱构建奠定了坚实的基础。然而,面向桥梁检测领域文本特性的信息抽取研究尚在起步阶段,其关键技术解决方法尚未提出。鉴于目前文本信息抽取技术的研究现状,本文共开展了如下几项研究:
(1)本文针对桥梁检测领域首先确定了信息抽取工作中命名实体识别和实体关系抽取任务需要识别的目标,并对该领域文本特性分别从内容结构、领域术语特性、描述方式特性进行了详细的分析。该部分的分析对后续桥梁检测领域语料库的构建、命名实体识别和实体关系抽取的研究提供了明确的任务目标。
(2)针对目前尚未有一个开放的桥梁检测领域文本语料库,本文进行了桥梁检测领域语料库的构建,这为开展后续的研究打下了坚实的数据基础。在此过程中,在领域专家的指导下,制定了详细的桥梁检测领域命名实体和实体关系标注规范,通过对大量桥梁检测报告的分析提出了一套完整的桥梁检测领域标注方案,并构建了较大规模的领域文本语料库,为后续关键技术研究提供数据支撑。
(3)针对桥梁检测领域文本特征的分析,以我国桥梁检测文本领域特性为基础,提出一种基于Transformer-BiLSTM-CRF模型的桥梁检测领域命名实体识别方法。该方法通过TransformerEncoder提取字符上下文长距离相关性特征,并采用BiLSTM提取字符方向敏感性特征,最终使用CRF进行领域命名实体的序列标注。实验结果表明,该方法能有效识别桥梁名、结构构件、结构病害等领域实体,与现有方法相比,具有更好的精确度、召回率和F1值分别为91.96%、89.54%、90.73%。
(4)针对桥梁检测领域文本特征的分析,以我国桥梁检测文本领域特性为基础,提出一种基于Lattice-LSTM-Softmax模型的桥梁检测领域实体关系抽取识别方法。该模型将词级特征整合到字符特征中,能够使LSTM神经网络在获取字符特征的同时也获得显性的词特征和词序特征,改善了由于分词不准确导致实体关系识别不准确的问题。在数据集上对本文模型进行了全面的评估,结果表明本文的模型明显优于其他方法,所对应的精确度、召回率和F1值分别为73.08%、74.95%、74.00%。
综上所述,本文以桥梁检测领域为背景,首先分析了领域文本所具有的文本特性,又制定了桥梁领域检测报告标注规范并构建了桥梁检测领域语料库,并根据桥梁检测领域文本特性分别采用了基于Transformer-BiLSTM-CRF模型进行了桥梁检测领域命名实体识别研究和基于Lattice-LSTM-Softmax模型的桥梁检测领域实体关系抽取的研究,在桥梁检测领域语料上都取得了较好成果。
(1)本文针对桥梁检测领域首先确定了信息抽取工作中命名实体识别和实体关系抽取任务需要识别的目标,并对该领域文本特性分别从内容结构、领域术语特性、描述方式特性进行了详细的分析。该部分的分析对后续桥梁检测领域语料库的构建、命名实体识别和实体关系抽取的研究提供了明确的任务目标。
(2)针对目前尚未有一个开放的桥梁检测领域文本语料库,本文进行了桥梁检测领域语料库的构建,这为开展后续的研究打下了坚实的数据基础。在此过程中,在领域专家的指导下,制定了详细的桥梁检测领域命名实体和实体关系标注规范,通过对大量桥梁检测报告的分析提出了一套完整的桥梁检测领域标注方案,并构建了较大规模的领域文本语料库,为后续关键技术研究提供数据支撑。
(3)针对桥梁检测领域文本特征的分析,以我国桥梁检测文本领域特性为基础,提出一种基于Transformer-BiLSTM-CRF模型的桥梁检测领域命名实体识别方法。该方法通过TransformerEncoder提取字符上下文长距离相关性特征,并采用BiLSTM提取字符方向敏感性特征,最终使用CRF进行领域命名实体的序列标注。实验结果表明,该方法能有效识别桥梁名、结构构件、结构病害等领域实体,与现有方法相比,具有更好的精确度、召回率和F1值分别为91.96%、89.54%、90.73%。
(4)针对桥梁检测领域文本特征的分析,以我国桥梁检测文本领域特性为基础,提出一种基于Lattice-LSTM-Softmax模型的桥梁检测领域实体关系抽取识别方法。该模型将词级特征整合到字符特征中,能够使LSTM神经网络在获取字符特征的同时也获得显性的词特征和词序特征,改善了由于分词不准确导致实体关系识别不准确的问题。在数据集上对本文模型进行了全面的评估,结果表明本文的模型明显优于其他方法,所对应的精确度、召回率和F1值分别为73.08%、74.95%、74.00%。
综上所述,本文以桥梁检测领域为背景,首先分析了领域文本所具有的文本特性,又制定了桥梁领域检测报告标注规范并构建了桥梁检测领域语料库,并根据桥梁检测领域文本特性分别采用了基于Transformer-BiLSTM-CRF模型进行了桥梁检测领域命名实体识别研究和基于Lattice-LSTM-Softmax模型的桥梁检测领域实体关系抽取的研究,在桥梁检测领域语料上都取得了较好成果。