最大信息系数改进算法及其在铁路事故分析中的应用

来源 :北京交通大学 | 被引量 : 23次 | 上传用户:fengsuiyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
铁路运输在整个交通运输体系中占有重要的地位,随着我国铁路的大规模建设,铁路运输进入了跨越式快速发展阶段,铁路运营里程不断增加,货运及客运量不断增长。然而,与此同时,重、特大铁路事故仍然偶有发生,这给人民生命和财产安全造成极大的损失,确保铁路运输安全仍然是铁路运输中的一项重要工作。当前,各种先进电子电气设备不断地应用到铁路系统中,影响铁路安全的因素越来越多。面对如此多影响铁路安全的因素,首先需要分析这些因素之间的相关性,相比其它统计相关系数,最大信息系数(theMaximalInformationCoefficient,MIC)具有良好的性质:广泛性(Generality)和均匀性(Equitability),MIC可以发现不同类型的相关关系。本文具体分析了 Reshef等人提出的两变量最大信息系数MIC的定义及其近似算法,针对其存在的不足,提出了计算大规模数据中两变量以及多变量最大信息系数MIC的快速算法,并基于最大信息系数MIC,进行了铁路事故分析及预警研究。具体来说,本文主要创新点如下。1.提出了计算两变量最大信息系数MIC的数学规划模型并设计了面向大规模数据的快速算法。通过分析Reshef等人提出的两变量最大信息系数MIC的定义,明确了求解两变量最大信息系数MIC的目标以及各种约束条件,给出了数学规划模型;针对Reshef等人提出的计算两变量最大信息系数MIC近似算法计算时间较长的问题,利用k-均值聚类算法,分别对两个变量进行划分,得到两个变量的格子划分,提出了计算大规模数据中两变量最大信息系数MIC的快速算法。数值实验表明,本文提出的快速算法计算得到的两变量最大信息系数MIC保留了 MIC的两个优良的性质:广泛性和均匀性;不同类型两变量相关关系最大信息系数MIC的计算时间非常接近,而且,随着数据规模的增大,计算时间的增长速度不快;分析了算法的时间复杂度,Reshef等人提出的近似算法的时间复杂度为O(n2.4),本文提出的快速算法的时间复杂度是O(n1.6),本文提出的快速算法更适合发掘大规模数据中的两变量相关关系。2.给出了多变量最大信息系数MIC的定义,并提出了计算大规模数据中多变量最大信息系数MIC的快速算法。利用互信息的链式法则,将多变量互信息分解为一个变量与多个变量之间互信息的和,从而将多变量分为因变量和自变量两部分,得到多变量最大信息系数MIC的定义。利用二分k-均值聚类算法,将自变量和因变量分别划分为不同数量的块,提出了计算大规模数据中多变量最大信息系数MIC的快速算法。数值实验结果表明,提出的快速算法计算得到的多变量最大信息系数MIC保持了 MIC的优越性质:广泛性和均匀性,并且计算时间较短,计算时间增长速度较慢,本文提出的快速算法适合发掘大规模数据中的多变量相关关系。3.提出了基于最大信息系数MIC的铁路事故复杂网络模型。事故因素作为网络节点,根据两点之间最大信息系数MIC值产生网络中的边,分析了不同依赖性水平下的网络结构变化情况,具体分析了网络节点的度、度分布、孤立点、连通图以及网络平均连接度等指标的变化情况。对某一固定因素,随着依赖性水平的不断增长,该因素的重要影响因素可以被识别出来。4.提出了一种基于最大信息系数MIC的铁路事故预警方法。基于最大信息系数MIC,对相关影响因素按照相关性程度进行排序,利用人工神经网络模型,得到不同数量影响因素情况下的拟合曲线,由此得到目标因素与影响因素之间的最优拟合曲线。在此基础上,给出危险区域的概念,提出了一种铁路事故预警方法。当影响铁路安全的因素进入危险区域时,调整不正常影响因素指标,可以极大地避免铁路事故的发生。
其他文献
我国的浅层地温能开发利用以寒冷地区和夏热冬冷地区应用最为广泛,利用方式以地埋管地源热泵系统为主。其中寒冷地区北京、天津、河北等省市发展规模较大,夏热冬冷地区江苏和
有史以来,人类在生存、生活和发展的同时,必须与各类灾害威胁进行不懈地抗争,尤其是巨灾事件。巨灾事件对人类社会造成巨大的经济损失、大量人员伤亡和大规模设施受损,一直是人类
期刊
随着现代工业和社会环境中储存、运输或使用着大量的危险液化气体介质,这些介质通常不是有毒就易燃易爆,被加压以液态形式存在。密封这些液化气体介质的容器一旦因为意外事故