KPI自动化异常检测系统——Opprentice
论文:Opprentice: Towards Practical and Automatic Anomaly Detection Through Machine Learning
问题
- KPI类型很多,没有万能的检测器,需要为不同类型的KPI选择合适的异常检测器和合适的参数
- 算法人员没有运维知识,运维人员不懂算法,所以要尽可能全自动化
设计思想
- 运维人员标注异常
- Opprentice使用十几种不同的检测器提取上百个异常特征,然后将异常检测问题转化为机器学习中的有监督分类问题
算法细节
- 离线训练分类器
- 开发异常标注工具,快速标注异常
- 提取上百个特征(很多冗余),集成学习(随机森林)训练分类器
- 在线监测
- 新数据点的特征提取
- 用训练好的模型得出结果
备注:因为可能有新的异常case,所以要定期更新训练模型