Kaggle机器学习之模型融合（stacking）心得-520吉他网

当前位置：首页 > 头条 > Kaggle机器学习之模型融合（stacking）心得

时间：2019-05-15 来源：网络资源标签：民谣吉他价格

原标题：Kaggle机器学习之模型融合（stacking）心得雷锋网 AI科技评论按，本文作者吉他雷锋网 AI科技评论按，本文作者吉他手，雷锋网 AI科技评论获其授权发布。

在学习过程中感谢@贝尔塔模型融合方法，以及如何在 Kaggle 首战中进入前 10%这篇文章（作者是章凌豪）。

对于两位提供的信息，感激不尽。

同时还有Kaggle上一些关于ensemble的文章和代码，比如这篇（）。

本文适用于被stacking折磨的死去活来的新手，在网上为数不多的stacking内容里，我已经假设你早已经看过了上述所提到的那几篇有用的文章了。

但是，看完之后内心还是卧槽的。

我希望下面的内容能成为，你在学习stacking的曲折道路上的一个小火把，给你提供一些微弱的光亮。

本文以Kaggle的Titanic（泰坦尼克预测）入门比赛来讲解stacking的应用（两层！

）。

而数据的列数就看你保留了多少个feature了，因人而异。

我自己的train保留了 7+1（1是预测列）。

如果一下子看不懂，就麻烦了，在接下来的一段时间内，你就会卧槽卧槽地持续懵逼……因为这张图极具‘误导性’。

（注意！

我没说这图是错的，尽管它就是错的！

！

但是在网上为数不多教学里有张无码图就不错啦，感恩吧，我这个小弱鸡）。

这样的动作走5次！

长度为178 的预测值 X 5 = 890 预测值，刚好和Train data长度吻合。

这个890预测值是Model 1产生的，我们先存着，因为，一会让它将是第二层模型的训练来源。

重点：这一步产生的预测值我们可以转成 890 X 1 （890 行，1列），记作 P1 (大写P)接着说 Test Data 有 418 行。

(请对应图中的下层部分，对对对，绿绿的那些框框）每1次的fold，713行小train训练出来的Model 1要去预测我们全部的Test Data（全部！

因为Test Data没有加入5-fold，所以每次都是全部！

）。

此时，Model 1的预测结果是长度为418的预测值。

这样的动作走5次！

我们可以得到一个 5 X 418 的预测值矩阵。

然后我们根据行来就平均值，最后得到一个 1 X 418 的平均预测值。

重点：这一步产生的预测值我们可以转成 418 X 1 （418行，1列），记作 p1 (小写p)最后，放出一张Python的Code，在网上为数不多的stacking内容里，这个几行的code你也早就看过了吧，我之前一直卡在这里，现在加上一点点注解，希望对你有帮助：

报歉!评论已关闭。