异常检测的统计方法
在时间序列的异常检测中,统计方法通常是第一道防线。它们可以利用历史数据建立“正常”行为,然后将任何偏离此行为的情况标记为潜在的异常。技术可能包括移动平均值、标准差或更复杂的模型,如ARIMA。
直觉: 想象一条有速度限制的道路。行驶速度显著快于或慢于平均速度的汽车可能被认为是“异常”。这类似于异常检测的统计方法——它们建立了一个“正常”速度,任何与其显著偏离的情况都会被标记为异常。
机器学习方法: 隔离森林、自编码器等
机器学习也可以应用于时间序列的异常检测。诸如隔离森林或自编码器之类的技术可以检测到更复杂的模式,这些模式可能无法被更简单的统计方法捕捉到。
直觉: 隔离森林就像玩“猜猜是谁?”游戏。它尝试通过随机选择特征,然后在该选定特征的最大值和最小值之间随机选择一个分割值来隔离观测值。异常点是那些需要更少的随机分区才能被隔离的点,因此它们与大多数数据不太相似。
另一方面,自编码器就像学习重建其主题的艺术家。在异常检测的背景下,自编码器被训练为重新创建正常数据。如果它遇到无法很好地重新创建的数据(即异常),它将产生高重构误差。
异常检测模型的评估
由于异常本质上是罕见的,因此评估异常检测模型可能是一项挑战。精确率、召回率、F1分数或接收者操作特征下面积(AUROC)曲线等指标可能是有用的。
直觉: 想象在一堆干草中找针。如果我们忽略针,很容易说没有针,但是要找到所有针却很有挑战,因为很容易误拾干草。这类似于评估异常检测模型的挑战。
评论(0)