原文获取:https://ieeexplore.ieee.org/document/8594923.
在这里,我们面临这样一个场景:城市规划者希望从历史数据中学习,特殊情况(如事件或节日)如何与交通流中的不寻常模式相关,以支持改进对事件和交通系统布局的规划。因此,我们应该考虑在一定的时间间隔内观察到的交通流值的序列。这样的流序列可以被建模为流的概率分布。本文采用一种离群值检测方法,即局部离群值因子(LOF)来处理流量分布,而不是单个观测。我们应用离群值检测在线扩展数据库,采用新的流分布。
本文的几个贡献:
本文的重点是检测出流概率分布的异常。一个交通流(Traffic flow)被定义为在给定时间区间内,通过某一地点(比如城市道路网络中的一点)的车辆数量。而一个流概率分布(Flow probability distribution, FPD)将流量值与在给定时间内发生的可能性联系起来。
令$I$是一个时间区间中的时间点集合。每个时间点对应记录了某一点的流量$X=[x_1,\cdots,x_{\vert I\vert}]$。令$\lambda$为为两不重合时间点之间的时间,$\delta$为每个时间点对流量的测量时间。我们假定$\lambda=\delta$,即测量的流量不会重合。
从$I$中我们可以提取一个集合$\mathcal{T}=\{T_1,\cdots,T_\tau\}$,其中每一个元素是$\mu$个连续时间点(也是一个集合)。对于$T_j,j=1,\cdots,\tau$,我们定义这个连续时间点开始于$\iota(T_j)$,那么
\[T_j=\{\iota(T_j),\iota(T_j)+1,\cdots,\iota(T_j)+\mu\}.\]接着定义$X_{T_j}$为$T_j$这段时间的流量值。举例来说,假如$\lambda=\delta=1h$,$\tau=7$,$\forall j=1,\cdots,7$,$\iota(T_j)=7:00$,而$\mu=3$,那么$\mathcal{T}$可以是一个星期七天,每天7:00-10:00的流量。
对于每个集合$X_{T_j}$,它都可以被表示为离散随机变量$Y_j\in N_0$,从而有一个分布函数$f_{Y_j}=f_j$,我们直接用频率去估计:
\[f_j(y)\approx\hat{f}_j(y)=\dfrac{|\{x=y|x\in X_{T_j}\}|}{|X_{T_j}|}=\dfrac{|\{x=y|x\in X_{T_j}\}|}{\mu}\]定义这样的概率密度分布为流概率分布 (FPD)。由此定义FPD异常:给定一个经验流概率分布族
\[F=\{\hat{f}_1,\hat{f}_2,\cdots,\hat{f}_\tau\}\]它是从$\{X_{T_1},\cdots,X_{T_\tau}\}$中导出。给定一个打分函数$s:F\to{R}$和一个阈值$\theta$,异常点(outliers)被定义为下面的集合:
\[O=\{\hat{f}_j\in F\vert s(\hat{f}_j)\geq\theta\}\]现在考虑将概率分布变成可学习数据。文中做了一个简单的处理,比如有两个$\hat{f}:\hat{f_1},\hat{f_2}$:它们的概率密度函数用直方图绘制如下:
那么我们会取它们中最大的流量值作为特征值的最大值,从而将特征进行归一化。此时上面两个数据被变换成
\[\begin{aligned} \mathcal{A}_1&=\begin{bmatrix} 0&0&0&0&0&0&0&0&0&0.1&0.3&0.4&0.2 \end{bmatrix}\\ \mathcal{A}_2&=\begin{bmatrix} 0&0&0&0&0&0&0&0.2&0.2&0.3&0.2&0.1&0 \end{bmatrix}\\ \end{aligned}\]直方图如下:
也就是一共13个特征。现在定义两个分布的距离,本文选择了巴氏距离,对于巴氏距离,它在统计学中用于测量两种离散概率分布的可分离性。在直方图相似度计算时,巴氏距离获得的效果最好,但计算是最为复杂的。定义如下:
\[B(\mathcal{A}_i,\mathcal{A}_j)=-\ln\sum_{m=1}^{d_i}\sum_{k=1}^{d_j}\sqrt{|m-k|+(\mathcal{A}_i(m)\mathcal{A}_i(k))}\]但发现在维基百科等资料中,似乎没有取绝对值一项,而是
\[B(\mathcal{A}_i,\mathcal{A}_j)=-\ln\sum_{m=1}^{d_i}\sum_{k=1}^{d_j}\sqrt{\mathcal{A}_i(m)\mathcal{A}_i(k)}\]这样用NumPy的向量化能很快计算出来。
现在考虑FPD场景下的LOF算法:令
\[F=\{\hat{f}_1,\cdots,\hat{f}_\tau\}\]是一个FPD族,然后给定一个新的$\hat{f}$,和一个参数$k(k<\tau)$,这个是用来控制集合$k\text{NN}(\hat{f})\subseteq F$的,表示与$\hat{f}$最近邻的$k$个分布。同时定义$k\text{NN-}dist(\hat{f}_i)$,表示分布$\hat{f}_i$和距其第$k$近的分布的距离。
在LOF中,$k\text{NN-}dist$是密度估计的最基本成分。离群值是指相对于它们的$k$个最近邻,局部密度相对较低的对象。这些密度估计通常与欧氏空间有关。然而,LOF是基于距离的异常检测,我们当然可以将距离换成非欧氏距离,比如这里的巴氏距离。
定义局部可达密度(lrd):
\[\text{lrd}(\hat{f})=1\bigg/\dfrac{\sum_{\hat{f}_i\in k\text{NN}(\hat{f})}\text{reach}_k(\hat{f},\hat{f}_i)}{|k\text{NN}(\hat f)|}\]其中可达距离定义为
\[\text{reach}_k(p,o)=\max\{k\text{NN-}dist(o), dist(p,o)\}\]所以局部可达密度是局部可达距离均值的倒数,$\hat{f}$和它最近邻样本的距离大,那么局部可达密度就小。定义局部异常因子:
\[LOF(\hat{f})=\dfrac{1}{|k\text{NN}(\hat{f})|}\sum_{\hat{f}_i\in k\text{NN}(\hat{f})}\dfrac{\text{lrd}(\hat{f}_i)}{\text{lrd}(\hat{f})}\]这里采用了一个分式,因为如果单纯的使用局部可达密度来衡量一个点是否异常,会有一个问题,局部可达密度容易受到簇的密度的影响,当样本空间里存在多个密度不同的簇时,密度较大的簇它的局部可达密度会比较大,容易造成误判。而LOF的思想不仅仅是看它的绝对密度,而是看这个点和相邻点的相对密度。
文中采用1作为阈值,也就是如果$LOF(\hat{f})>1$,那么$\hat{f}$为异常点。
本文实验的评价指标为F-score和ROC-AUC曲线下面积。
将FPD-LOF与BLOF算法进行比较,BLOF是时间序列上探测异常的算法。所使用的的几个数据集:
实验结果:
通过与欧登塞市的合作,作者团队得到了来自整个市区的几个测试地点的数据。每个数据输入都包含与在特定位置检测到的车辆相关的信息,例如:间隙、长度、日期、时间、速度和等级(即车辆类型)。在10个地点,传感器已经安装了基础设施。这10个地点具有不同的特征(交通密度、汽车或自行车计数器)。交通数据来自于2017年1月1日至2017年9月30日。
在使用新数据评估离群值检测技术时的一个常见问题是离群值没有被标记。为了便于对真实数据进行定量评估,文章向$F$中注入了合成的异常数据$f_i$,其长度$d^*=\max\{d_j\vert j=1,\cdots,\tau\}$。异常数据包括下面几种:
Null FPD:也就是空流,理解为街道一直是空的,$f_i(0)=1$;
Stable FPD:街道时刻的流量是一个定值,$f_i(x)=1$;
Regular FPD:可理解为均匀分布,所有的可能的流量值以相同概率发生:
\[f_i(m)=\frac1{d_i},m=1,\cdots,d^*\]Unexpected FPD:它模拟了当一个对交通流量产生强烈影响的异常事件发生时的行为(例如,导致某些道路关闭的节日或事故)所观察到的行为。它分为三个阶段:
\[f_i(m)=\begin{cases} \epsilon&\text{if }1\leq m\leq x\\ \Psi(m)&\text{if }x<m\leq y,m=1,\cdots,d^*\\ 0&\text{if }y<m\leq d^* \end{cases}\]其中$\Psi:[x,\cdots,y]\to[\epsilon,\cdots,(1-x\epsilon)]$是一个单增函数,且
\[\sum m\Psi(m)=(1-x\epsilon)\]即满足离散概率分布函数的条件。
Noise FPD,是依概率给原FPD加上白噪声,从$\mathcal{U}(0,1)$中采样一个$p$,然后指定一个阈值$\gamma_i$:
\[f_i=\begin{cases} f_i+n\sim\mathcal{N}(0,\sigma_i^2)&\text{if }p\geq\gamma_i\\ f_i&\text{otherwise} \end{cases}\]我们绘制了前4种异常的示意图,相比于原文更精细:
文章在最后做了一个case study:对每个数据集选出了最为异常的点(理解为LOF最大),然后根据Ground truth做出解释。
例如,2017年2月28日的FPD是一个异常值,因为天气风太大,乘坐汽车和公共汽车而不是自行车的人大幅增加。其他流异常值可能与重大事件有关。例如,一年的第一天(2017年01月01日)在三个地方都有很大的影响,庆祝妇女日(2017年08月03日)在三个地方都是异常值。我们可以用这样一个事实来证明第一个案例,即人们倾向于呆在家里,并在2016年昨晚的庆祝活动后进行一些重新设置。然而,我们可以通过女性在公共场所(餐馆、电影院、剧院等)庆祝节日来证明第二种情况。
这是一篇交通流量+异常检测的文章,发在了2018年的ICDM上。本文的核心算法并不算新颖:LOF算法是2000年提出的,笔者主要在意的是本文是如何建模,以及如何进行实验: