论文部分内容阅读
煤矿安全历来是我国安全生产工作的重中之重。虽然我国煤矿安全生产已经呈现出总体稳定持续好转的态势,但事故总量依然较大,重特大事故仍未得到有效遏制,煤矿安全生产形势依然严峻。每一起煤矿安全事故,特别是重特大事故,不但会造成人民群众生命财产的巨大损失,而且由事故引发的网络舆情可能威胁到社会和谐稳定大局,影响党和政府的形象声誉。因此,通过对煤矿事故本身的历史数据以及事故引发的网络舆情等外部数据进行分析,深入研究煤矿安全事故发生的规律特点和事故网络舆情的动态变化趋势,强化煤矿安全管理的科技支撑,有效遏制重特大煤矿安全事故,正确引导事故引发的网络舆情,是目前煤矿安全管理领域亟待探索的问题。 近年来,随着大数据在各个行业的广泛应用,管理领域也出现了大量聚焦于从海量数据中发现有价值的知识以支持管理决策的相关研究。实际上,在安全管理领域也积累了大量多源异构的数据,这为安全管理带来了新的研究视角和机会。本论文将数据挖掘理论、技术与安全管理理论、实践结合,对煤矿安全事故产生的内外部数据进行深入分析与挖掘,为安全管理提供决策支持。 本文的创新性工作和特色主要体现在以下几个方面: (1)提出了一种从煤矿事故调查报告文本中自动提取事故致因要素的方法。本论文针对大规模的煤矿安全事故调查报告文本数据,提出了一种从非结构化文本中自动提取煤矿安全事故致因要素的方法。该方法基于传统的主题模型,同时结合煤矿生产的特点,引入专家知识构建煤矿事故致因语料库,并在模型中引入依据专家经验总结出的致因要素,与致因话题建立连接,进而将文本中的致因话题自动分配到对应的致因要素中。在提取的致因要素基础上,结合煤矿安全事故本身的时空特征,对不同时间和地区的煤矿安全事故致因的规律特点进行了分析。致因话题模型的提出既是对现有文本挖掘方法的扩展,同时也是直接针对煤矿安全事故分析的应用。 (2)提出了煤矿安全事故严重程度预测以及相关影响因素分析的方法。本论文对影响煤矿安全事故严重程度的各类相关要素进行了分析,将事故的严重程度划分为不同类别,构建了决策树模型,利用事故的各种特征对事故严重程度进行分类预测,并进一步采用梯度提升树这种组合分类模型进行分类预测,以提高精度。同时,考虑到不同严重程度事故类别的不平衡性,采用重采样的方法对数据分布进行了调整,有效提高了模型的适应性。本论文构建的梯度提升决策树模型具有较强的可扩展性,根据煤矿事故数据的可获得性,可将更多的要素信息融入决策树模型中。 (3)提出了一种针对煤矿安全事故网络舆情文本的动态话题情感提取方法,并基于该方法分析舆情态势发展。本论文针对煤矿安全事故带来的大量网络舆情信息,将事故舆情中的文本、主题、情感、时间等要素协同建模,构建了一种可以提取动态话题与情感的主题模型,可以从大量网络舆情文本信息中自动发现公众对事故的观点、态度及其随时间的动态变化特征。同时,利用事件研究的方法,从网络舆情的发展态势中识别影响网络舆情话题、情感发生变化的重要事件。此外,在给定初始阶段舆情传播状态的情况下,通过构建回归模型对影响网络舆情爆发的因素进行分析,发现初始阶段的网络舆情所包含的主题、情感等特征能够显著影响舆情的发展态势,这为政府部门根据舆情的初始特征提前制定应对方案,树立正确的舆论导向开拓了新思路。