1
%windir%\system32\cmd.exe "/K"
D:\Users\LINTIANYU368\anaconda\Scripts\activate.bat
D:\Users\LINTIANYU368\anaconda
pip install -i http://mirrors.paic.com.cn/pypi/web/simple --trusted-host mirrors.paic.com.cn
Python 中的 tuple 结构为 “不可变序列”,用小括号表示。为了区别数学中表示优先级的小括号,当 tuple 中只含一个元素时,需要在元素后加上逗号。
线程由操作系统控制,协程由程序自身控制
大数据分析实习生
算法 上海
薪资:250-300元/天 | 实习要求:4天/周,3个月以上 | 转正机会:有
岗位职责
1、 1、协助构建综金产品画像和知识图谱,并探索在渠道、客户、产品冷启动问题的价值变现;
2、 2、结合样本研究底层数据进行变量挖掘、特征组合,不断加入新的数据源以及变量提升模型性能;
3、 3、协助探索集成模型(W&D、DeepFM、gcForest等)在综合金融风控和营销场景的落地。
岗位要求
1、数学、统计、计算机相关理工专业硕士,深刻理解并熟练掌握统计学、数据挖掘的算法和技术;
2、至少熟练掌握1种主流大数据框架(Hive/Hadoop/Spark、Tensorflow、TonY等);
3、熟练掌握至少一种数据分析/挖掘语言,如R/Python等,熟悉linux、git等常规工具;
4、对商业行为与相关数据敏感性较高,可以从大量复杂业务逻辑与海量数据中总结商业价值 ;
5、熟悉常用机器学习算法如回归分析、决策树、贝叶斯概率、马尔科夫模型、集成算法,对算法理论有较深了解,能够根据业务场景设计模型、参数调优、模型部署;
6、具备优秀的沟通能力、学习能力、执行能力和团队协作能力。
Boosting 主要关注降低偏差,它能将一些弱学习器提升为强学习器。
因此它在SVM 、knn 等不容易受到样本扰动的学习器上效果更为明显。
Bagging 中基学习器的“多样性”来自于样本扰动。样本扰动来自于对初始训练集的随机采样。
随机森林中的基学习器的多样性不仅来自样本扰动,还来自属性扰动。
随着树的数量的增加,随机森林可以有效缓解过拟合。因为随着树的数量增加,模型的方差会显著降低。
但是树的数量增加并不会纠正偏差,因此随机森林还是会有过拟合。学习器组合可以能带来好处:
由于学习任务的假设空间往往很大,可能有多个假设在训练集上达到同等性能。
此时如果使用单学习器可能因为造成误选而导致泛化性能不佳,通过学习器组合之后会减小这一风险。
学习算法往往会陷入局部极小。有的局部极小点所对应的泛化性能可能很差,而通过学习器组合之后可降低陷入糟糕局部极小的风险。
某些学习任务的真实假设可能不在当前学习算法所考虑的假设空间中,此时使用单学习器肯定无效。
通过学习器组合之后,由于相应的假设空间有所扩大,有可能学得更好的近似。
https://gitchat.csdn.net/activity/5a38e8078bfed71461ad64a3?utm_source=so
RF vs GBT
- 从模型框架的角度来看:
梯度提升树GBT 为boosting 模型。
随机森林RF 为bagging 模型。 - 从偏差分解的角度来看:
梯度提升树GBT 采用弱分类器(高偏差,低方差)。梯度提升树综合了这些弱分类器,在每一步的过程
中降低了偏差,但是保持低方差。
随机森林RF 采用完全成长的子决策树(低偏差,高方差)。随机森林要求这些子树之间尽可能无关,
从而综合之后能降低方差,但是保持低偏差。 - 如果在梯度提升树和随机森林之间二选一,几乎总是建议选择梯度提升树。
随机森林的优点:天然的支持并行计算,因为每个子树都是独立的计算。
梯度提升树的优点:
梯度提升树采用更少的子树来获得更好的精度。因为在每轮迭代中,梯度提升树会完全接受现有树(投票权为1)。而随机森林中每棵树都是同等
重要的(无论它们表现的好坏),它们的投票权都是 ,因此不是完全接受的。
梯度提升树也可以修改从而实现并行化。
梯度提升树有一个明确的数学模型。因此任何能写出梯度的任务,都可以应用梯度提升树(比如ranking 任务)。而随机森林并没有一个明确的数学模型。