Day42:概率论与统计学基础知识

alt

我们前面讲过了,机器学习是基于统计学的诞生的,因此当涉及到机器学习时,概率论和统计学是非常重要的基础知识。下面我们就简要介绍一些必要的概率统计学知识。

1. 概率论

1.1事件与概率

  • 事件是指样本空间中的一个子集,概率是事件发生的可能性的度量,比如说我们投掷一枚均匀的硬币,出现的正面的可能性是1/2。

    我们也可以用代码来表示,生成一个随机数,判断该随机数小于0.5的情况:

    import random
    
    # 生成一个随机数
    num = random.random()
    print("随机数:", num)
    
    # 通过比较判断事件发生与否
    if num < 0.5:
        print("事件发生")
    else:
        print("事件不发生")
    

1.2 随机变量与概率分布

  • 随机变量是对样本空间中的每个样本赋予的一个数值,概率分布描述了随机变量取值的概率情况。

    上面的例子中,“事件”我们只生成了一个随机数,现假设我们生成了1000个随机数,这就是随机变量,我们想看一下它的分布,当然我们这个随机数并非完全随机,我们让它服从正态分布:

    import numpy as np
    import matplotlib.pyplot as plt
    
    # 生成1000个服从正态分布的随机数
    mu = 0
    sigma = 1
    data = np.random.normal(mu, sigma, 1000)
    
    # 绘制直方图
    plt.hist(data, bins=30)
    plt.xlabel('Value')
    plt.ylabel('Frequency')
    plt.title('Histogram of Random Variable')
    plt.show()
    

1alt

1.3 累积分布函数

  • 累积分布函数描述了随机变量小于等于某个值的概率,比如刚才的正态分布,它小于0的分布概率是多少,可以堪称概率分布函数的积分,即上图中每个柱子累加:

    import numpy as np
    import matplotlib.pyplot as plt
    
    # 生成1000个服从均匀分布的随机数
    low = 0
    high = 1
    data = np.random.uniform(low, high, 1000)
    
    # 计算累积分布函数
    sorted_data = np.sort(data)
    cdf = np.arange(1, len(sorted_data) + 1) / float(len(sorted_data))
    
    # 绘制累积分布函数图
    plt.plot(sorted_data, cdf)
    plt.xlabel('Value')
    plt.ylabel('Cumulative Probability')
    plt.title('CDF of Random Variable')
    plt.show()
    

2alt

2. 数理统计

2.1 平均值、标准差、方差、分位数

  • 平均值是随机变量取值的加权平均,标准差衡量数据的离散程度,方差是标准差的平方,中位数将数据分成两部分,50%的数据小于等于中位数,50%的数据大于等于中位数,当然还有其他百分位数,只是分界线的差异。

    我们可以使用的库函数很

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

大模型-AI小册 文章被收录于专栏

1. AI爱好者,爱搞事的 2. 想要掌握第二门语言的Javaer或者golanger 3. 决定考计算机领域研究生,给实验室搬砖的uu,强烈建议你花时间学完这个,后续搬砖比较猛 4. 任何对编程感兴趣的,且愿意掌握一门技能的人

全部评论
概统🤐
点赞 回复 分享
发布于 2023-07-14 15:01 上海

相关推荐

刚刷到字节跳动官方发的消息,确实被这波阵仗吓了一跳。在大家还在纠结今年行情是不是又“寒冬”的时候,字节直接甩出了史上规模最大的转正实习计划——ByteIntern。咱们直接看几个最硬的数,别被花里胡哨的宣传词绕晕了。首先是“量大”。全球招7000多人是什么概念?这几乎是把很多中型互联网公司的总人数都给招进来了。最关键的是,这次的资源分配非常精准:研发岗给了4800多个Offer,占比直接超过六成。说白了,字节今年还是要死磕技术,尤其是产品和AI领域,这对于咱们写代码的同学来说,绝对是今年最厚的一块肥肉。其次是大家最关心的“转正率”。官方直接白纸黑字写了:整体转正率超过50%。这意味着只要你进去了,不划水、正常干,每两个人里就有一个能直接拿校招Offer。对于2027届(2026年9月到2027年8月毕业)的同学来说,这不仅是实习,这简直就是通往大厂的快捷通道。不过,我也得泼盆冷水。坑位多,不代表门槛低。字节的实习面试出了名的爱考算法和工程实操,尤其是今年重点倾斜AI方向,如果你简历里有和AI相关的项目,优势还是有的。而且,转正率50%也意味着剩下那50%的人是陪跑的,进去之后的考核压力肯定不小。一句话总结:&nbsp;27届的兄弟们,别犹豫了。今年字节这是铁了心要抢提前批的人才,现在投递就是占坑。与其等到明年秋招去千军万马挤独木桥,不如现在进去先占个工位,把转正名额攥在手里。
喵_coding:别逗了 50%转正率 仔细想想 就是转正与不转正
字节7000实习来了,你...
点赞 评论 收藏
分享
评论
1
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务