图解机器学习/第十二章 异常检测

异常检测,是指找出给定的输入样本$\lbrace x_i \rbrace_{i=1}^n$中包含的异常值的问题。

局部异常因子

局部异常因子,是指对偏离大部分数据的异常数据进行检测的方法。

从$x$到$x’$的可达距离

$x^{(k)}$表示的是训练样本$\lbrace x_i \rbrace_{i=1}^n$中距离$x$第$k$近的样本。

$x$的局部可达密度可由下式加以定义

$x$的局部可达密度,是从$x^{(i)}$到$x$的可达距离的平均值的倒数。

$x$的局部异常因子

$LOF_k(x)$的值越大,$x$的异常度就越大。$LOF_k(x)$是$x^{(i)}$的局部可达密度的平均值和$x$的局部可达密度的比。当$x^{(i)}$的周围的密度比较高而$x$周围的密度比较低的时候,局部异常因子就比较大,$x$就会被看作是异常值。

局部异常因子,是遵循事先制定的规则(偏离大部分正常值的数据被认为是异常值),寻找异常值的无监督的异常检测算法。

Read More