新的abtest方法: Innovating Faster on Personalization Algorithms at Netflix Using Interleaving

1. 我们在线上做实验的时候,常常会用到abtest,来确定线上效果。而我们的abtest方法,往往就是对用户进行分组,对于相同比例的随机用户,进行效果比较。这种方法有个前提/假定,就是各组随机用户的分布是完全一样的。当然,一般情况下(如用户量特别大),这种方法大概率情况是不太有问题的,但是对于某些场景,如Netflix推荐场景,这种方法会有所局限;

2. 在Netflix的推荐场景中,较少部分用户是重度用户,而只要这部分用户在不同组中分布有差别,就会导致对最后abtest结果有较大差别;

3. Netflix工程师提出一种新的abtest方法来解决这个问题——Interleaving,就是将abtest的2种方法同时提供给同一批用户,如A模型的推荐结果是A1~A3,B模型的推荐结果是B1~B3,那么随机从A1-B1-A2-B2-A3-B3和B1-A1-B2-A2-B3-A3中取一组推荐结果给用户,根据在模型A和模型B推荐视频上用户的消费行为来对比效果;
新的abtest方法: Innovating Faster on Personalization Algorithms at Netflix Using Interleaving

新的abtest方法: Innovating Faster on Personalization Algorithms at Netflix Using Interleaving

4. Interleaving的优势在于能够在更少的流量上验证效果,且准确性与传统abtest有强相关性;
新的abtest方法: Innovating Faster on Personalization Algorithms at Netflix Using Interleaving

新的abtest方法: Innovating Faster on Personalization Algorithms at Netflix Using Interleaving

5. Interleaving的缺点是:
①工程上需要开发;
②只能得出对比的优劣关系,不能获取数据的确定值;
所以Netflix先是用Interleaving筛掉一批表现差的实验,从中选择少量实验再进行传统的abtest(Interleaving+abtest);


参考资料: 
[1] https://medium.com/netflix-techblog/interleaving-in-online-experiments-at-netflix-a04ee392ec55
[2] https://www.leiphone.com/news/201906/Kgqjnk0PrL0LAyrJ.html


以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!