概念漂移检测

1、相关概念

1.1 定义

广义定义:

环境上下文变化引起的观测对象的根本性变化,成为概念漂移。

机器学习中的定义

在机器学习、时间序列以及模式识别领域的一种普遍现象。概念漂移是指一个模型要去预测的一个目标变量,这个目标变量随着时间的推移发生改变。对于基本相同的数据,随着时间的推移,模型的预测精度将降低

1.2 数学表达

X(输入)和y(输出)之间的映射关系y=f(X)是随着时间变化的,在训练集和测试集上的f完全不一样,这样就会出现我们在离线测试调好的模型上线就不work的情况。

1.3 研究对象

时间上具有关联的数据流,目前有很多广泛存在的数据,像金融数据、交通数据等,这类数据不同于传统的static data(静态数据),而是作为一种数据量大、实时性强的data stream(流式数据)而存在。流式数据分为稳定的数据流动态的数据流,稳定的数据流具有稳定独立同分布的特点,而动态数据流则是不独立同分布的,所以会产生概念漂移的现象。

1.4 分类

根据数据的变化形态可以划分为:突变(sudden)、渐变(incremental)、缓变(gradual)、复现(recurring)、波动(blip)和噪声(noise)。如下图所示,根据不同的类型,针对概念漂移设计算法也有不同的思路。

概念漂移检测

 

不同类型的概念漂移


————————————————

参考文献:

http://blog.itpub.net/31509949/viewspace-2643047/

https://blog.****.net/FrankieHello/article/details/81949725

https://www.zhangqibot.com/post/ml-concept-drift/

Block-based and Online Ensembles for Concept-drifting Data Streams, 2015. Ph.D. Thesis from Dariusz Brzeziński

https://posts.careerengine.us/p/5e1b563637ce770a4c6b7b42