1

%windir%\system32\cmd.exe "/K"
D:\Users\LINTIANYU368\anaconda\Scripts\activate.bat
D:\Users\LINTIANYU368\anaconda

pip install -i http://mirrors.paic.com.cn/pypi/web/simple --trusted-host mirrors.paic.com.cn

Python 中的 tuple 结构为 “不可变序列”，用小括号表示。为了区别数学中表示优先级的小括号，当 tuple 中只含一个元素时，需要在元素后加上逗号。

线程由操作系统控制，协程由程序自身控制

大数据分析实习生
算法上海
薪资：250-300元/天 | 实习要求：4天/周，3个月以上 | 转正机会：有

岗位职责
1、 1、协助构建综金产品画像和知识图谱，并探索在渠道、客户、产品冷启动问题的价值变现；

2、 2、结合样本研究底层数据进行变量挖掘、特征组合，不断加入新的数据源以及变量提升模型性能；

3、 3、协助探索集成模型(W&D、DeepFM、gcForest等）在综合金融风控和营销场景的落地。
岗位要求
1、数学、统计、计算机相关理工专业硕士，深刻理解并熟练掌握统计学、数据挖掘的算法和技术；

2、至少熟练掌握1种主流大数据框架(Hive/Hadoop/Spark、Tensorflow、TonY等)；

3、熟练掌握至少一种数据分析/挖掘语言，如R/Python等，熟悉linux、git等常规工具；

4、对商业行为与相关数据敏感性较高，可以从大量复杂业务逻辑与海量数据中总结商业价值；

5、熟悉常用机器学习算法如回归分析、决策树、贝叶斯概率、马尔科夫模型、集成算法，对算法理论有较深了解，能够根据业务场景设计模型、参数调优、模型部署；

6、具备优秀的沟通能力、学习能力、执行能力和团队协作能力。

Boosting 主要关注降低偏差，它能将一些弱学习器提升为强学习器。
因此它在SVM 、knn 等不容易受到样本扰动的学习器上效果更为明显。

Bagging 中基学习器的“多样性”来自于样本扰动。样本扰动来自于对初始训练集的随机采样。
随机森林中的基学习器的多样性不仅来自样本扰动，还来自属性扰动。

RF vs GBT

从模型框架的角度来看：
梯度提升树GBT 为boosting 模型。
随机森林RF 为bagging 模型。
从偏差分解的角度来看：
梯度提升树GBT 采用弱分类器（高偏差，低方差）。梯度提升树综合了这些弱分类器，在每一步的过程
中降低了偏差，但是保持低方差。
随机森林RF 采用完全成长的子决策树（低偏差，高方差）。随机森林要求这些子树之间尽可能无关，
从而综合之后能降低方差，但是保持低偏差。
如果在梯度提升树和随机森林之间二选一，几乎总是建议选择梯度提升树。
随机森林的优点：天然的支持并行计算，因为每个子树都是独立的计算。
梯度提升树的优点：
梯度提升树采用更少的子树来获得更好的精度。因为在每轮迭代中，梯度提升树会完全接受现有树（投票权为1）。而随机森林中每棵树都是同等
重要的（无论它们表现的好坏），它们的投票权都是，因此不是完全接受的。
梯度提升树也可以修改从而实现并行化。
梯度提升树有一个明确的数学模型。因此任何能写出梯度的任务，都可以应用梯度提升树（比如ranking 任务）。而随机森林并没有一个明确的数学模型。