XgBoost算法

Xgboost是华盛顿大学博士陈天奇创造的一个梯度提升（Gradient Boosting）的开源框架。至今可以算是各种数据比赛中的大杀器，被大家广泛地运用。接下来就让我们一起来对Xgboost进行进一步的了解

算法介绍

Xgboost优势

由于帮助个人和团队赢得了几乎所有 Kaggle 结构化数据竞赛，XGBoost 在过去几年中获得了极大的青睐。在这些竞赛中，公司和研究人员发布数据，之后统计师和数据挖掘者竞争生成预测和描述数据的优质模型。

最初构建了 XGBoost 的 Python 和 R 的执行。由于 XGBoost 的流行，如今 XGBoost 已经实现了为 Java、Scala、Julia、Perl 和其他语言提供包。这些执行向更多的开发者开放了 XGBoost 库，并提高了它在 Kaggle 社区中的吸引力。

XGBoost 已与多种其他工具和包集成，例如适用于 Python 发烧玩家的 scikit-learn 和适用于 R 用户的 Caret。此外，XGBoost 还集成了 Apache Spark 和 Dask 等分布式处理框架。

2019 年，XGBoost 被评为 InfoWorld 令人向往的年度技术奖得主之一。

决策树

Boosting算法的思想聚焦于把许多较弱的分类器集成成为一个较强的分类器，Xgboost作为boosting算法中的其中一种，是将许多树模型集成在一起形成一个很强的分类器，因此在介绍Xgboost之前，首先需要对决策树有一个了解。

机器学习中，决策树是一个预测模型；他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树包括分类树和回归树，类树对离散变量做决策树，回归树对连续变量做决策树。

Xgboost算法

Xgboost算法是对梯度提升算法的改进，求解损失函数极值时使用了牛顿法，将损失函数泰勒展开到二阶，另外损失函数中加入了正则化项。训练时的目标函数由两部分构成，第一部分为梯度提升算法损失，第二部分为正则化项。损失函数定义为：

对于上式而言，y’i是整个累加模型的输出，正则化项是则表示树的复杂度的函数，值越小复杂度越低，泛化能力越强，其表达式为:

正则项是为了防止模型过拟合。于是，一般的损失函数就变成了目标函数+这样，叶子节点个数(T)，节点的数值(w)。随着树的复杂度增大，对应的目标函数也就变大，这样就有效防止了过拟合。

Xgboost算法的思想是不断添加树，并不断进行特征分裂来生长树。通过学习一个新的函数，去拟合上一次预测的残差。首先我们进行训练，完成之后可以得到k棵树，我们要预测一个样本的分数就可以根据这个样本的特征，去寻找会落到每棵树中对应的一个叶子节点，所有的分数都有叶子节点与之相对应，想要得到该样本的预测值。就只需要将每棵树对应的分数加起来。

以Xgboost原作者陈天奇的讲座PPT中的例子为例，如下图所示。简单来说我们要预测一家人的身份，则可以先通过年龄是否小于15岁来区分开小孩和大人，然后再通过性别区分开是男是女。

之后又通过另一个特征是否每天都使用电脑，区分不一样的样本。就这样，训练出了两棵树tree1和tree2，两棵树的结论累加起来便是最终的结论。所以两棵树中小孩所落到的结点的分数相加就是小孩的预测分数：2 + 0.9 = 2.9。同理爷爷的预测分数：-1 + （-0.9）= -1.9