论文部分内容阅读
[摘 要]根据采集数据进行交通违法的判定是交通监管的难点之一,判定结果通常很难通过传统的方法寻找出来。对此,讨论异常数据检测方法中基于密度的聚类方法和基于统计的方法,并将两种方法应用于交通违法数据研判,判定结果分别得到了数据中的噪音点,数据中的离群值和极端值。据此,可知获知违法数据的可选范围,为交通违法的判定给出依据。
[关键词]交通违法;研判;异常数据;聚类方法;
中图分类号:TU744 文献标识码:A 文章编号:1009-914X(2017)42-0355-01
0.前言
交通事故的发生严重影响交通流前行,通过研究交通违法历史数据,可以发现道路部分下陷,驾驶人素质低等问题。将异常数据检测应用于交通违法数据研判,检测违法数据的异常行为,发现新知识,为交通拥堵改善提供更多更深层信息,也可以发现数据采集过程中的错误记录。[1][2]目前,我国对交通违法数据的分析,大部分分析仅限于一般的统计分析,无法挖掘违法数据背后的交通事故发展规律,交通事故致因等,对于精准研判交通事故有一定的差距。国外将数据挖掘技术应用于道路交通事故分析较早。欧洲从1993年起就致力于交通事故数据挖掘的研究,基本实现了利用某些数据挖掘技术分析事故与特定因素之间的定量关系。[3]
1.研判方法
违法数据的异常数据与其他数据形式不同的原因,除了外在因素,如采集数据中记录人员的观测录入错误、采集仪器不可控的故障;还有异常数据产生于不同机制的内在因素。因此,识别异常数据,就是发现正常数据的内在规律,给定一个可接受范围,若不满足条件则为异常数据。
基于密度的聚类方法:DBSCAN(Density-Based Spatial Clusteringof Applicationswith Noise)是一种基于密度的空间聚类算法,该算法中的密度是一个对象指定距离内对象的个数,方法是将具有足够密度的区域划分为簇,它将簇定义为密度相连的点的最大集合,并在具有噪声的數据集中发现任意形状的簇,不属于任何簇的点定义为噪音点。DBSCAN算法的显著优点是聚类速度快且能够有效处理噪声点和发现任意形状的空间聚类。该算法与传统聚类K-MEANS比较,不需要提前输入要划分的聚类个数,异常观点更接近于异常数据定义。[3]
2.检测应用实例
2.1 检测数据对象
本次检测处理对象选用交通违法数据,该数据含有91个属性,共11868行数据,数据信息主要有违法人相关信息,执法人相关信息和违法事件相关信息。通过调用weka的DBScan方法来检测异常数据。以当事人违法详细信息数据表为例进行检测。
2.2 异常检测结果
DBSCAN算法处理结果:如图1,可以从聚类结果说明中(聚类结果的前七行)得知,数据总共11868个记录,聚类后将数据集中的实例分成20个簇,结果中每条数据实例最后一个标记显示实例属于哪个簇,这个属性若为Noise则表示噪音点,如图2图3,例如第2390条数据在聚类后不属于任何一个簇,被标记为噪音点。聚类结果的图示窗口如图3,可以改变想X,Y轴的属性更改视图。绘图区右侧各横条,显示属性值的分布。
通过事实数据的对比,可知这些数据都存在交通违法,验证数据表明符合事实率达到了100%。但是由于数据有限,并不能代表数据的研判准确程度,此外,机器处理的结果并不能完全反应全部的真实结果,故此需要人工复核后再确定。故此,对应的交通监管数据存在异常,通过交通管理者的人工筛查可以大量减少事故的判定。
3.结论
将基于密度的DBSCAN的异常数据判断方法应用于交通违法数据。聚类方法可得到噪音点,极端值和离群值。该方法得到的异常值,有助于错误记录更正和知识发现,为后期改善交通拥堵问题提供信息。对于真实数据处理的使用,可以利用大数据的方法,可提高数据的处理速度,达到实时处理的目的。
参考文献
[1] 王晓燕.几种常用的异常数据挖掘方法[J].兰州文理学院学报(自然科学版),2010,24(4):68-71.
[2] 刘降珍.异常数据挖掘中几种常用方法的比较[J].现代计算机,2012(23):34-36.
[3] 王晓燕,邹坚敏,裘晨露,邓毅萍.基于数据挖掘的交通事故信息综合分析研判系统构建研究[J].中国公共安全(学术版),2016,(04):57-62.陈华,李继波.异常(Outlier)检测算法综述[J].大众科技,2005(9):96-97.
[4] 陈淑燕,王炜,李文勇.实时交通数据的噪声识别和消噪方法[J].东南大学学报自然科学版,2006,36(2):322-325.
作者简介
陈镜晰(1992.12--)性别女,新疆乌鲁木齐市人,硕士,专业:交通信息工程及控制。
[关键词]交通违法;研判;异常数据;聚类方法;
中图分类号:TU744 文献标识码:A 文章编号:1009-914X(2017)42-0355-01
0.前言
交通事故的发生严重影响交通流前行,通过研究交通违法历史数据,可以发现道路部分下陷,驾驶人素质低等问题。将异常数据检测应用于交通违法数据研判,检测违法数据的异常行为,发现新知识,为交通拥堵改善提供更多更深层信息,也可以发现数据采集过程中的错误记录。[1][2]目前,我国对交通违法数据的分析,大部分分析仅限于一般的统计分析,无法挖掘违法数据背后的交通事故发展规律,交通事故致因等,对于精准研判交通事故有一定的差距。国外将数据挖掘技术应用于道路交通事故分析较早。欧洲从1993年起就致力于交通事故数据挖掘的研究,基本实现了利用某些数据挖掘技术分析事故与特定因素之间的定量关系。[3]
1.研判方法
违法数据的异常数据与其他数据形式不同的原因,除了外在因素,如采集数据中记录人员的观测录入错误、采集仪器不可控的故障;还有异常数据产生于不同机制的内在因素。因此,识别异常数据,就是发现正常数据的内在规律,给定一个可接受范围,若不满足条件则为异常数据。
基于密度的聚类方法:DBSCAN(Density-Based Spatial Clusteringof Applicationswith Noise)是一种基于密度的空间聚类算法,该算法中的密度是一个对象指定距离内对象的个数,方法是将具有足够密度的区域划分为簇,它将簇定义为密度相连的点的最大集合,并在具有噪声的數据集中发现任意形状的簇,不属于任何簇的点定义为噪音点。DBSCAN算法的显著优点是聚类速度快且能够有效处理噪声点和发现任意形状的空间聚类。该算法与传统聚类K-MEANS比较,不需要提前输入要划分的聚类个数,异常观点更接近于异常数据定义。[3]
2.检测应用实例
2.1 检测数据对象
本次检测处理对象选用交通违法数据,该数据含有91个属性,共11868行数据,数据信息主要有违法人相关信息,执法人相关信息和违法事件相关信息。通过调用weka的DBScan方法来检测异常数据。以当事人违法详细信息数据表为例进行检测。
2.2 异常检测结果
DBSCAN算法处理结果:如图1,可以从聚类结果说明中(聚类结果的前七行)得知,数据总共11868个记录,聚类后将数据集中的实例分成20个簇,结果中每条数据实例最后一个标记显示实例属于哪个簇,这个属性若为Noise则表示噪音点,如图2图3,例如第2390条数据在聚类后不属于任何一个簇,被标记为噪音点。聚类结果的图示窗口如图3,可以改变想X,Y轴的属性更改视图。绘图区右侧各横条,显示属性值的分布。
通过事实数据的对比,可知这些数据都存在交通违法,验证数据表明符合事实率达到了100%。但是由于数据有限,并不能代表数据的研判准确程度,此外,机器处理的结果并不能完全反应全部的真实结果,故此需要人工复核后再确定。故此,对应的交通监管数据存在异常,通过交通管理者的人工筛查可以大量减少事故的判定。
3.结论
将基于密度的DBSCAN的异常数据判断方法应用于交通违法数据。聚类方法可得到噪音点,极端值和离群值。该方法得到的异常值,有助于错误记录更正和知识发现,为后期改善交通拥堵问题提供信息。对于真实数据处理的使用,可以利用大数据的方法,可提高数据的处理速度,达到实时处理的目的。
参考文献
[1] 王晓燕.几种常用的异常数据挖掘方法[J].兰州文理学院学报(自然科学版),2010,24(4):68-71.
[2] 刘降珍.异常数据挖掘中几种常用方法的比较[J].现代计算机,2012(23):34-36.
[3] 王晓燕,邹坚敏,裘晨露,邓毅萍.基于数据挖掘的交通事故信息综合分析研判系统构建研究[J].中国公共安全(学术版),2016,(04):57-62.陈华,李继波.异常(Outlier)检测算法综述[J].大众科技,2005(9):96-97.
[4] 陈淑燕,王炜,李文勇.实时交通数据的噪声识别和消噪方法[J].东南大学学报自然科学版,2006,36(2):322-325.
作者简介
陈镜晰(1992.12--)性别女,新疆乌鲁木齐市人,硕士,专业:交通信息工程及控制。