1. 标题
· A deep encoder-decoder network for anomaly detection in driving trajectory behavior under spatio-temporal context
· 基于时空上下文的驾驶轨迹行为异常检测模型
2. 相关成果
Wenhao Yu, Qinghong Huang. A deep encoder-decoder network for anomaly detection in driving trajectory behavior under spatio-temporal context, International Journal of Applied Earth Observation and Geoinformation, 2022, 115, 103115. DOI: 10.1016/j.jag.2022.103115
3. 成果团队成员
· 禹文豪,博士,中国地质大学(武汉)地理与信息工程学院,教授,博士生导师,主要从事地图综合、空间数据挖掘及智慧城市应用等研究。(联系邮箱:ywh_whu@126.com;个人网站:http://grzy.cug.edu.cn/yuwenhao/zh_CN/index.htm)
· 黄晴泓,硕士研究生,中国地质大学(武汉)地理与信息工程学院,研究方向为地图制图学与地理信息系统。
4. 成果介绍
内容导读:
轨迹数据异常检测是从大量轨迹数据中发掘异于多数常见特征的异常模式。相关方法可有效发现系统中存在的潜在风险,对交通管理、监测和事故预测等具有重要意义。常见的轨迹异常检测方法主要分为基于距离和密度的方法、基于分类和聚类的方法及基于机器学习的方法。现有的轨迹异常研究通常关注一条轨迹的整体或局部异常,部分研究考虑轨迹数据在形态方面的特点,将轨迹的位置信息作为时空点序列进行分析,使用距离、聚类等技术完成检测。这种方式虽然简化了轨迹的序列结构,但在一定程度上忽略了轨迹数据的上下文背景,具有局限性。也有部分研究使用行车速度、方向等信息辅助异常检测工作,但其研究对象依然是单条轨迹。驾驶轨迹作为驾驶习惯的直观表现,通过对轨迹数据的分析能够评价相应驾驶者的驾驶行为习惯优劣,将研究对象聚焦于驾驶人员。
不同路段不同时间下就算同样的轨迹参数,其隐含的异常特征也可能有所区别,因此,在模型中植入上下文信息可帮助理解时空场景特点。本文提出了一种基于深度学习和时空上下文的驾驶轨迹行为异常检测方法(图1),通过对长期驾驶轨迹数据进行建模,运用非监督深度学习网络,量化驾驶行为的异常程度。具体基于历史交通状况的时空特征将连续的时空维度划分为有限的时空单元(图2),从而为轨迹建模引入时空上下文信息。并通过变分自编码器网络,以重构概率作为异常得分(图3)。以北京市出租车轨迹数据为例,基于多个尺度时空单元进行实验,说明该方法相较于传统异常检测方法占有优势(表1)。
研究方法:
本研究提出的基于深度学习和时空上下文的驾驶轨迹行为异常检测方法 (Anomaly Detection of Spatio-Temporal Driving Trajectory Behavior, STDTB-AD),框架图如图1所示,主要包含三个阶段:(1)数据处理;(2)轨迹建模;(3)异常检测。
图1 框架图
● 数据处理
在数据处理阶段,首先通过地图匹配,将轨迹点数据投影至对应道路。从而统计得到各个路段在不同时段的交通流量数据,并导出道路拓扑结构信息。
● 轨迹建模
a.构造时空单元
由于道路交通具有很强的时空差异性,轨迹数据也具有较强的时空依赖性。因此,我们提出时空单元的概念,将连续的时间和空间划分为不同的时间和空间单元,构造时空单元。而后提取各样本在各时空单元中的运动特征。为了保证空间单元内部特征的一致性,研究中依据道路流量特征进行路段聚类,如图2所示。具体根据数据处理中得到的路段流量特征与道路拓扑结构信息,对路段进行层次化聚类。由此,可以自适应选择不同粒度的空间单元。
图2基于交通时空特征的路段聚类
(计算每条路段在每段时间内的流量,并依据此特征对路段进行层次化聚类)
b.轨迹行为特征表示
根据定义的时空单元,提取各对象在各对应单元中轨迹行为特征参数,从而构造各对象的轨迹行为特征向量。选取了研究对象的多个运动参数作为轨迹行为的特征表示,包括最大速度、最大加速度和最大方向偏差(方向偏差为与平均运动方向之间的差值)。研究对象oi的特征, 其中 , 是在时空单元 中的最大速度, 是在时空单元 中的最大加速度, 是在时空单元 中的最大方向偏差。
● 异常检测:
由于异常在轨迹数据中比较罕见,并且难以界定,我们假设运动物体具有不同程度的可疑性。因此,我们的模型旨在通过无监督的方法判断目标的可疑程度。变分自编码器的基本原理为重构输入数据,异常数据往往比正常数据更难以重构,可以以此为检测依据。
变分自编码器由编码器与解码器构成,如图3所示。输入数据首先由编码器处理,经过一系列非线性变换得到一组均值和方差,即样本的概率分布作为隐藏层特征。而后在分布中随机采样,生成一个向量作为解码器的输入,通过一系列非线性变换,输出与输入相同维度的特征,且与输入相似。
传统的自编码器是没有概率基础的确定性判别模型,而变分自编码器可以给出校准的概率作为异常评分,即重建概率。重构概率是由解码器的均值和方差参数计算出的分布生成原始数据的平均概率。研究中以重构概率为异常得分,其值越高代表异常程度越显著,如图3。
图 3 基于变分自编码器的驾驶行为异常检测
(输入构建的驾驶行为特征,经过变分自编码器,输出异常得分(重构概率))
实验结果:
一、 实验数据
实验使用到的数据为北京市路网数据和北京市出租车轨迹点数据(图4)。
图 4 实验数据
由于缺少真实的异常数据,我们假设现有数据为正常,通过在现有特征向量中增加一定倍数的标准差值构造属性异常的样本数据。
二、 对比实验
实验中,使用包含5%、10%、20%异常样本的三组数据进行模型检验。同时,在特征提取环节使用三组不同粒度空间单元进行对比。与几个传统方法对比结果如表1。
表1 驾驶行为异常检测结果对比
|
|
LOF |
iForest |
OC-SVM |
TPRRO |
AE |
STDTB-AD |
|
Ns |
- |
- |
- |
- |
50 |
100 |
200 |
50 |
100 |
200 |
5% |
ACC |
0.932 |
0.930 |
0.957 |
0.957 |
0.900 |
0.894 |
0.910 |
0.979 |
0.978 |
0.983 |
P |
0.406 |
0.378 |
0.542 |
0.566 |
0.316 |
0.300 |
0.339 |
0.754 |
0.792 |
0.884 |
R |
0.780 |
0.620 |
0.900 |
0.600 |
0.860 |
0.840 |
0.840 |
0.860 |
0.760 |
0.760 |
F1 |
0.534 |
0.470 |
0.677 |
0.583 |
0.462 |
0.442 |
0.483 |
0.804 |
0.776 |
0.817 |
10% |
ACC |
0.878 |
0.947 |
0.908 |
0.912 |
0.899 |
0.886 |
0.906 |
0.969 |
0.970 |
0.963 |
P |
0.441 |
0.822 |
0.523 |
0.579 |
0.497 |
0.461 |
0.519 |
0.863 |
0.907 |
0.932 |
R |
0.820 |
0.600 |
0.900 |
0.440 |
0.910 |
0.820 |
0.810 |
0.820 |
0.780 |
0.680 |
F1 |
0.573 |
0.694 |
0.662 |
0.500 |
0.643 |
0.590 |
0.633 |
0.841 |
0.839 |
0.786 |
20% |
ACC |
0.818 |
0.886 |
0.821 |
0.862 |
0.895 |
0.876 |
0.890 |
0.958 |
0.964 |
0.942 |
P |
0.527 |
0.864 |
0.530 |
0.709 |
0.689 |
0.656 |
0.701 |
0.876 |
0.956 |
0.973 |
R |
0.885 |
0.510 |
0.920 |
0.525 |
0.865 |
0.800 |
0.785 |
0.920 |
0.860 |
0.730 |
F1 |
0.660 |
0.642 |
0.673 |
0.603 |
0.767 |
0.721 |
0.741 |
0.898 |
0.905 |
0.834 |
(STDTB-AD为本文提出的方法,LOF为局部异常因子算法Local Outlier Factor,iForest为孤立森林,OC-SVM为单类支持向量机,TPRRO(2017)是基于距离的轨迹异常检测方法,AE为传统自编码器)
此外,通过消融实验,验证时间单元与空间单元对于模型的作用:
图5 消融实验一
(STDTB-AD为时空单元法,OT-AD为仅考虑时间单元的方法)
图6 消融实验二
(STDTB-AD为时空单元法,OS-AD为仅考虑空间单元的方法)
结论:
本文提出了一种基于变分自编码器网络的框架,用于驾驶轨迹行为的异常值检测。通过学习大量驾驶轨迹数据的特征来评估驾驶员的行为异常程度。结果表明,该框架为检测可能出现异常驾驶行为提供了一种可行的解决方案。
大多类型的运动均受时空上下文限制,我们计划将该方法应用于其他类型的轨迹数据,例如动物轨迹数据和步行轨迹数据。此外,考虑到不同的时空单位对驾驶行为的影响差异,我们在下一步工作中考虑在变分自编码器之前为不同特征分配权重来校准模型。