概念漂移检测
1、相关概念
1.1 定义
广义定义:
环境上下文变化引起的观测对象的根本性变化,成为概念漂移。
机器学习中的定义:
在机器学习、时间序列以及模式识别领域的一种普遍现象。概念漂移是指一个模型要去预测的一个目标变量,这个目标变量随着时间的推移发生改变。对于基本相同的数据,随着时间的推移,模型的预测精度将降低。
1.2 数学表达
X(输入)和y(输出)之间的映射关系y=f(X)是随着时间变化的,在训练集和测试集上的f完全不一样,这样就会出现我们在离线测试调好的模型上线就不work的情况。
1.3 研究对象
时间上具有关联的数据流,目前有很多广泛存在的数据,像金融数据、交通数据等,这类数据不同于传统的static data(静态数据),而是作为一种数据量大、实时性强的data stream(流式数据)而存在。流式数据分为稳定的数据流和动态的数据流,稳定的数据流具有稳定独立同分布的特点,而动态数据流则是不独立同分布的,所以会产生概念漂移的现象。
1.4 分类
根据数据的变化形态可以划分为:突变(sudden)、渐变(incremental)、缓变(gradual)、复现(recurring)、波动(blip)和噪声(noise)。如下图所示,根据不同的类型,针对概念漂移设计算法也有不同的思路。
不同类型的概念漂移
————————————————
参考文献:
http://blog.itpub.net/31509949/viewspace-2643047/
https://blog.****.net/FrankieHello/article/details/81949725
https://www.zhangqibot.com/post/ml-concept-drift/
Block-based and Online Ensembles for Concept-drifting Data Streams, 2015. Ph.D. Thesis from Dariusz Brzeziński
https://posts.careerengine.us/p/5e1b563637ce770a4c6b7b42