论文部分内容阅读
随着科技的发展与人民生活水平的提高,私家车快速涌入到我们的生活中,与此同时交通事故发生的数量也不断增加,不仅给个人带来了财产损失还严重危害了生命安全。与此同时,交通事故发生的原因也呈现出多样化和复杂化的特征,事故因果关系的分析成为了一个日趋重要的议题。然而目前交通事故的分析一般针对人、车、路、环境等几种因素的直接影响,缺少对事故发生过程中的事件因果关系演变的详细分析。针对上述问题,本文利用深度学习技术,构建交通事故事理图谱从而对交通事故进行因果关系的分析,其中因果事件抽取与因果关系抽取是事理图谱构建过程中必不可缺的两部分。本文主要工作如下:(1)针对交通事故因果文本数据集缺失的现状,本文从互联网上官方政府网站发布的道路交通事故调查报告收集并处理了相关文本,并根据需求对处理好的文本进行手动标注,构建了交通事故数据集。(2)针对交通事故因果事件抽取过程中事件边界难以寻找、文本表征不足等问题,将抽取任务转化为序列标注任务,提出了基于注意力机制的交通事故抽取模型MACL(multihead self-attention convolution Bi-LSTM network with mixed char-word and BERT embeddings,MACL)。该模型在文本表示时使用字向量、词向量、位置向量混合编码的方式,同时还引入BERT(Bidirectional Encoder Representations from Transformers,BERT)模型生成的向量矩阵。利用卷积神经网络(Convolutional Neural Networks,CNN)与双向长短时记忆网络(Bidirectional Long and Short-term Memory Networks,Bi-LSTM)分别提取上下文特征与长距离特征,使用多头注意力机制(Multihead self-attention,MHSA)对权重进行分配使之更关注事件边界位置,最后采用条件随机场(Constant Rate Factor,CRF)分类器进行分类,得到每个字的语义角色,从而抽取得到因果事件。(3)针对交通事故因果关系中存在的嵌套因果抽取困难的问题,本文使用问答方式完成因果关系的抽取,提出基于问答的交通事故因果关系抽取方法。首先使用BERT预训练模型得到向量矩阵,同时在嵌入层增加词向量矩阵用于增强文本表示能力,其次利用阅读理解任务中的指针网络抽取得到原因事件,将原因事件与残缺的问题模板结合后得到完整的问题文本,将抽取任务转化为问答任务,最后利用原始文本与问题文本共同得到结果事件,得到因果关系对。(4)搭建了交通事故因果事理图谱应用系统,在因果关系抽取得到因果关系对的基础上,使用余弦相似度计算方法,生成交通事故因果事理图谱,并应用于事件查询、事故过程演化等方面。本文利用构建的交通事故因果数据集,对上述两个关键任务的模型进行验证并与其他主流模型进行对比,实验结果验证了所提模型的有效性。同时生成的因果事理图谱更直观地展示了事故的演化过程,为防止事故重复发生提供支持。