新的abtest方法: Innovating Faster on Personalization Algorithms at Netflix Using Interleaving

1. 我们在线上做实验的时候，常常会用到abtest，来确定线上效果。而我们的abtest方法，往往就是对用户进行分组，对于相同比例的随机用户，进行效果比较。这种方法有个前提/假定，就是各组随机用户的分布是完全一样的。当然，一般情况下（如用户量特别大），这种方法大概率情况是不太有问题的，但是对于某些场景，如Netflix推荐场景，这种方法会有所局限；

2. 在Netflix的推荐场景中，较少部分用户是重度用户，而只要这部分用户在不同组中分布有差别，就会导致对最后abtest结果有较大差别；

3. Netflix工程师提出一种新的abtest方法来解决这个问题——Interleaving，就是将abtest的2种方法同时提供给同一批用户，如A模型的推荐结果是A1~A3，B模型的推荐结果是B1~B3，那么随机从A1-B1-A2-B2-A3-B3和B1-A1-B2-A2-B3-A3中取一组推荐结果给用户，根据在模型A和模型B推荐视频上用户的消费行为来对比效果；
新的abtest方法: Innovating Faster on Personalization Algorithms at Netflix Using Interleaving

4. Interleaving的优势在于能够在更少的流量上验证效果，且准确性与传统abtest有强相关性；
新的abtest方法: Innovating Faster on Personalization Algorithms at Netflix Using Interleaving

新的abtest方法: Innovating Faster on Personalization Algorithms at Netflix Using Interleaving

5. Interleaving的缺点是：
①工程上需要开发；
②只能得出对比的优劣关系，不能获取数据的确定值；
所以Netflix先是用Interleaving筛掉一批表现差的实验，从中选择少量实验再进行传统的abtest（Interleaving+abtest）；

参考资料：
[1] https://medium.com/netflix-techblog/interleaving-in-online-experiments-at-netflix-a04ee392ec55
[2] https://www.leiphone.com/news/201906/Kgqjnk0PrL0LAyrJ.html

以上均为个人见解，因本人水平有限，如发现有所错漏，敬请指出，谢谢！

新的abtest方法: Innovating Faster on Personalization Algorithms at Netflix Using Interleaving

相关推荐