随机森林

  1. 袋外数据OOB:在每一轮训练中有36.8%的数据不会被抽取到
  2. 袋外数据错误率:参考https://www.cnblogs.com/zhangzhixing/p/11150317.html
  3. 调参方法:
  • 常用参数:n_estimators决策树的个数、每棵树最大特征数(max_features) 一般用sqrt(总特征数)、最大树深度”(max_depth)、“分裂所需最小样本数”(min_samples_split)所需样本越少意味着模型越复杂
  • 网格化搜索:sklearn 提供了相应的方GridSearchCV,穷举找到全局最优的参数,但计算复杂度较高,适合小规模的问题
  • 贪心的坐标下降搜索:固定其他参数,将一个参数调整到最好,这样循环一轮,优点是搜索规模小,但得到的可能不是全局最优值
  • 随机网格化搜索
全部评论

相关推荐

点赞 收藏 评论
分享
牛客网
牛客企业服务