一个试验。
最近做的项目需要训练~40k行17列的数据。Predictand的standard deviation在0.5左右。
用XGBoost RMSE在0.28左右,代价是50000 boosting rounds @ lr = 0.001。如果把learning rate调成0.0001看上去还能更好,但是需要的boosting rounds已经超过可行范围了。使用一个32 core, 64 GB的CPU node,训练时间比使用一个NVIDIA® K80 GPU还短一点。也可能是我GPU没有调对。
用同样的maximum tree depth训练Random Forest只需要500个tree,训练时间是XGBoost的三分之一,RMSE涨到了0.35,把tree增加到50000也只能微乎其微地降低RMSE。