笔记-概率论
1.precision,accuracy,sensity, Specificity。
2.二分类问题当负样本下采样的时候,模型的最终概率修正。
比如y为0或1,当对样本的负样本,比如0的样本只取20%,这会改变p(y|x), 因为同样的x下,y=1和y=0的相对数量变了。
重点:采样本身对特征的条件分布 P(x∣y)P(x∣y) 没有改变(前提是假设你的采样和 x 无关,即随机抽取某一类的样本,不是基于 x 进行抽样),而x相对y的分布却没有变,因为假如对于y=1和y=0来说有两个不同的分布,而当其中的一些y=0的例子被去掉的时候,其相对应的x也被去掉了,并不会改变原本其x的分布。
P真实=rp/((1−p)+rp)
3.置信区间
4.古典概型
5.变异系数(CV)
μ/σ
标准差与均值的比值(单位无关) |
6.SVM
7.GBDT
Bias = “平均预测”离真值远
Variance = “预测结果”不稳定
🧠 Boosting 降 Bias,让模型更聪明
🎲 Bagging 降 Variance,让模型更稳健
8.LR sigmoid
9.多层感知器
10.拉格朗日函数
因为原函数满足极值的条件,恰好等于一个拉格朗日函数求导=0,所以直接对原函数求导就是原函数极值点。
11.当离散随机变量 XX 的熵H(X)=−∑iP(xi)logP(xi)H(X)=−i∑P(xi)logP(xi)的值逐渐升高时,意味着:
主要含义
- 不确定性增加熵越大,说明对 XX 的结果越不确定,越难预测。
- 概率分布趋于均匀熵最大时,概率分布是完全均匀的,即每个可能取值出现的概率相等。
- 信息量增大每次观察结果平均包含的信息量更多。