首先我讲解Pipeline,在我的工作流中有很多组件将步骤连接在一起,比如SelectKBest和RandomForestClassifier.在选择了最好的100个特征后,就运行我的随机森林模型,从而检查更细致的特征是否有更好的表现.Pipeline组件包就是在我的工作流中连贯上述特征选择与转换,随机森林分类器估计的操作的工具. 那么这里为什么我要用Pipeline,而不将各个步骤分开来呢?主要以下原因: 1代码可读性更强; 2减少跟踪输入模型的数据关于转换和评估的步骤; 3管道组件的增加删除修改更加方便,即插即用; 4最重要一点是,可以方便地用GridSear...