上手机器学习系列-第6篇（下）-LightGBM原理篇

前言

前面的文章分享过了LightGBM的实践编码，本篇让我们一起来读一下算法论文《LightGBM: A Highly Efficient Gradient Boosting Decision Tree》，从原理层面上去深入一层。

推荐大家在读论文的同时，参考LightGBM官网材料（[https://lightgbm.readthedocs.io/en/latest/Features.html]）来理解，这样可以对论文中省略掉的思路过程做一些补充。

论文解读

我们先来快速把握这篇论文的中心思想。它提出了两个具有创新性的方法：

GOSS（Gradient-based One-Side Sampling），该方法的目的是缩减用于计算信息增益的样本集数量，参与计算的数据量少了，计算性能就更好了；
EFB（Exclusive Feature Bundling），该方法目的在于减少用于参与分裂点筛选计算的特征变量数量，同样的，因为参与计算的对象少了，性能就提升了。

决策树算法的核心点就在于每来到一个树的分叉点时，选择哪个特征变量，以及选择哪个数值进行拆分。传统的做法就是遍历所有特征变量的所有可用于分裂的数值点（遍历所有样本记录），根据定义好的某个损失函数来进行最优化选择。面对海量数据时，这种算法往往会遇到计算性能瓶颈，容易想到的方法就是要么减少参与计算的样本量，要么减少特征变量的数量。但这并不是一个轻易的工作。作者的论文就是围绕这两点来展开的。

先说GOSS

上手机器学习系列-第6篇（下）-LightGBM原理篇
这一段论文描述在直观上还是容易理解的，但有没有一种感觉：好像哪里还是模模糊糊的。比如我问你：每个样本实例的梯度怎么计算？为什么梯度大的，对于信息增益的贡献也大？筛选的阈值或比例怎么确定？

首先，回忆一下在通常的GBDT模型中，梯度代表了什么？
答案是代表了在当前boost轮次中，每个样本实例在损失函数计算中的“权重”。以平方和损失函数为例，笔者的思考如下：
上手机器学习系列-第6篇（下）-LightGBM原理篇

其次，关于筛选的阈值，我们在论文中找到答案：
上手机器学习系列-第6篇（下）-LightGBM原理篇
所以，这里涉及到了两个超参数（需要人工设定的参数）。并不是完全丢弃了小梯度的样本，而是随机选择了b%，并且在计算最后的信息增益时，把这部分小梯度的数据人为“放大”了(1-a)/b 倍。

读到这里，笔者建议大家在脑海里思考两个问题：1）a、b的值可能的取值区间会是什么？2) 对于小梯度的样本，为什么又人为乘了一个系数？这个系数又是怎么定义出来的？这两个问题笔者也没有答案，其实想到什么程度并不重要，重要的是有没有尝试去往下再想一层，再想一层，直到我们无法参透为止。

其实，我们所谓的学习，到底是学什么呢？记住一些知识点吗？知道每个模型的步骤是啥？参数怎么设置？接口怎么调用？这些都还只是应用，笔者觉得最重要的是我们要学习如何去思考。世界这么大，人与人的差距是一个很残酷又很现实的情况，我们可能无力改变自己的很多方面，但一定要努力去改善自己的处世方式，向NB的人去学习“道”的东西，只有把如何思考学到手，才能做到知识迁移。否则以后遇到新的问题，我们仍然无从着手。

啰嗦病一犯又跑题了，再回来我们的论文阅读。

有了对于样本的处理后，还是要回答在单棵CART树（还记得吗？GBDT类的算法是集成了若干个回归树，而不是决策树）在每个节点上如何进行分裂，总得有一个量化的计算指标。在分类决策树中往往采用信息熵的差值来作为信息增益、信息增益率。在回归树中，常用残差平方和做为当前步骤的损失函数，那分裂后，就会有一个新的残差平方和，用原来的值减去新的值，就是分支动作带来的收益了。
作者论文中定义了下面这样一个信息增益量：
上手机器学习系列-第6篇（下）-LightGBM原理篇
因为GOSS对样本做了缩减，且对于梯度小的样本乘了一个系数，所以其变种为：

论文中说该指标越大越好，所以对于不同的分裂点的选择标准就是最大化上述指标，对应的分裂点即最优选择。

BUT, 我们暂停一下来想想，1）为什么这里的信息增益是这样定义的？为什么说它等同于方差呢？2）缩减样本意味着什么？

我们先回想一下在离散变量情况下使用的信息增益，用熵来代表一个集合中的不确定性程度，熵越大，代表集合中的不确定性越高。那么决策树分支后，应该是每个分支越纯越好，也就是单个分支的熵值越小越好。在连续变量情况下，如果每个元素越靠近均值，则方差越小，元素值的分布差异性越大，整体的方差越大。因为我们希望分支后的纯度提升，其实就是要求分布的差异化越大越好，即方差越大越好。逻辑上有了这个感觉，形式上又该怎么理解呢？

我们回忆一下样本方差的统计学定义：
上手机器学习系列-第6篇（下）-LightGBM原理篇
也有很多地方是直接将这里的n-1写作n的（其实写成n-1才是无偏估计）。

下面来尝试理解一下形式上的演变：
上手机器学习系列-第6篇（下）-LightGBM原理篇
至于前面乘了一个系数，因为它等于分支前的样本总数，是一个常数，不影响对于极值的讨论。笔者就是这样从逻辑和形式上来理解论文的意思。

同时，LightGBM每次选择带来上述信息增益最大的节点进行分支，也即所谓的 leaf-wise 模式。
上手机器学习系列-第6篇（下）-LightGBM原理篇

再聊EFB

上手机器学习系列-第6篇（下）-LightGBM原理篇
这段话也很直观，意思就是把互斥的变量绑定到一起，这样就减少了总体的特征变量个数。但是，什么叫绑定呢？在选择分支节点的时候又具体怎么操作呢？

这个算法的实现手段有两个操作：1）对于确实互斥（不同时出现非零值）的特征，可以放心地把它们放到同一个bund里；2）对于不完全互斥的特征，在一定的噪声程度内，也允许它们放到同一个bund里，这样就进一步地减少了bund的数量。该算法的思路如下表：
上手机器学习系列-第6篇（下）-LightGBM原理篇
我们思考这样一个问题：排序在前面的特征更容易被分到一个bund中，还是排在后面呢？笔者是这样想的，既然它是按照特征的度（相当于与多少个其它特征有关联，即不互斥），那排在前面的特征就更容易形成新的bund，排在后面的特征更容易被合并到同一个bund中。定性的理解如下图所示：
上手机器学习系列-第6篇（下）-LightGBM原理篇

形成bund后，怎样去表示同一个bund中的N个特征变量呢？论文的方法是用bund中的N个变量来构造一个新的变量，原文描述如下：
上手机器学习系列-第6篇（下）-LightGBM原理篇
这里笔者形象地理解如下：

这样一来，就把bund变成了一个特征变量，原来的N个特征就变成了现在的M个新的bund合并特征，只要M远小于N，计算量就得到了足够显著地降低。

到此，该论文的两大创新思想就理解完毕了。论文后面是从实验数据上证实自己的算法如何较其它方法更优。这里不赘述。

结语

本文带领大家一起走读了一下LightGBM的论文，对其中部分知识点稍做展开讨论，并用形象化的方法来加深理解。我们也注意到本文中并对提及对于类型变量如何处理（默认肯定还是需要进行one-hot-encoding喽），因为在下一篇中我们介绍CatBoost，也是一个基于树模型的集成算法，而它的卖点就在于可以直接处理类别型变量。

敬请继续关注本人公众号文章。如果您阅读中有所收获，也期望您能转发给身边同样爱好大数据技术的朋友~
上手机器学习系列-第6篇（下）-LightGBM原理篇

上手机器学习系列-第6篇（下）-LightGBM原理篇

前言

论文解读

先说GOSS

再聊EFB

结语

相关推荐