笔记-概率论

1.precision,accuracy,sensity, Specificity。

2.二分类问题当负样本下采样的时候,模型的最终概率修正。

比如y为0或1,当对样本的负样本,比如0的样本只取20%,这会改变p(y|x), 因为同样的x下,y=1和y=0的相对数量变了。

重点:采样本身对特征的条件分布 P(x∣y)P(x∣y) 没有改变(前提是假设你的采样和 x 无关,即随机抽取某一类的样本,不是基于 x 进行抽样),而x相对y的分布却没有变,因为假如对于y=1和y=0来说有两个不同的分布,而当其中的一些y=0的例子被去掉的时候,其相对应的x也被去掉了,并不会改变原本其x的分布。

P真实​=rp/((1−p)+rp)​​

3.置信区间

4.古典概型

5.变异系数(CV)

 

μ/σ​

标准差与均值的比值(单位无关)

6.SVM

7.GBDT

Bias = “平均预测”离真值远

Variance = “预测结果”不稳定

🧠 Boosting 降 Bias,让模型更聪明

🎲 Bagging 降 Variance,让模型更稳健

8.LR sigmoid

9.多层感知器

10.拉格朗日函数

因为原函数满足极值的条件,恰好等于一个拉格朗日函数求导=0,所以直接对原函数求导就是原函数极值点。

11.当离散随机变量 XX 的熵H(X)=−∑iP(xi)log⁡P(xi)H(X)=−i∑​P(xi​)logP(xi​)的值逐渐升高时,意味着:

主要含义

  1. 不确定性增加熵越大,说明对 XX 的结果越不确定,越难预测。
  2. 概率分布趋于均匀熵最大时,概率分布是完全均匀的,即每个可能取值出现的概率相等。
  3. 信息量增大每次观察结果平均包含的信息量更多。
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务