首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
想在家办公的鸽子在考古
中山大学 数据分析师
发布于广东
关注
已关注
取消关注
@offer-收割鸡:
数据分析秋招回顾-Day7: 统计学(Part 2)
作为一个2022届的数据分析岗位的秋招党,在去年的秋招中也成功上岸,在整个过程中也收获结识一群优秀的朋友,大家也都拿到不同大厂的数分offer,创作这个专栏主要是为了分享我们在去年整个秋招过程中如何准备面试,沉淀下来的一些知识点以及一些走过的雷区,希望能够尽量给予未来优秀的“数分人”一些帮助和岗位的资讯。也希望大家能够互相交流行业资讯,积累行业人脉。 欢迎有兴趣的同学加: yz_wxhow (记得添加来自‘ 牛客 ’备注哦),也可以关注公众号获取更多资讯:收割鸡 。 Day7: 统计学知识点总结(part 2) 5、参数估计 定义:参数估计(parameter estimation),统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。从估计形式看,区分为点估计与区间估计; 常见点估计方法:矩估计、最小二乘估计、极大似然估计、贝叶斯估计 区间估计:利用已知的抽样分布、利用区间估计与假设检验的联系、利用大样本理论 1) 点估计 a、矩估计 矩估计法的理论依据是大数定律。矩估计是基于一种简单的“替换”思想,即用样本矩估计总体矩 优点:简单易行, 并不需要事先知道总体是什么分布。(根据均值方差来计算未知参数) 缺点:当总体类型已知时,没有充分利用分布提供的信息(有一定随意性) b、最小二乘估计 对于最小二乘估计来说,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值与观测值之差的平方和最小。 目标最小化估计值与观测值之差的平方和。Q表示误差平方和,Yi表示估计值,Ŷ i表示观测值 c、极大似然估计 对于最大似然估计来说,最合理的参数估计量应该使得从模型中抽取该n组样本的观测值的概率最大,也就是概率分布函数或者似然函数最大。 2)区间估计 定义:区间估计 = 点估计 ± 边际误差 根据样本求出未知参数的估计区间,并使这个区间包含未知参数的可靠程度达到预定要求(这个预定要求就是个置信度,用上α位分点来体现这个置信度)。 步骤: 参数估计和假设检验的联系:参数估计和假设检验都是样本去估计总体,都是建立在概率基础上的统计,可以相互转换 参数估计和假设检验的区别是: a.参数估计是用样本统计量估计总体参数的方法;假设检验是先对总体参数提出一个假设,然后利用样本信息去检验这个假设是否成立 b.参数估计是以置信区间(大概率)估计总体参数;假设检验是利用小概率事件是否发生来判断假设是否成立 c.区间估计求得的是求以样本估计值为中心的双侧置信区间,假设检验既有双侧检验,也有单侧检验; 6、 辛普森悖论 定义:在对样本集合进行分组研究时,在分组比较中都占优势的一方,在总评中有时反而是失势的一方,这种有悖常理的现象,就成为 “辛普森悖论”。 实例: xx学校两个学院男生录取率均高于女生,但该学校女生录取率则高于男生,这个例子便是一典型的辛普森悖论现象 原因:为什么会出现辛普森悖论现象,从上面这个例子可以看到,男生虽然每个学院的录取率都高于女生,但男生中有100个人(5/6的比例)报了录取率较低的法学院,出现了严重的数据数量不平衡,因此导致男生整体的录取率偏低。 另外,录取率这个变量应该跟专业有较大关系,而不同性别的学生报考不同专业的比例不同,性别这个变量是因为跟报考专业相关,才呈现出跟录取率相关的现象,从本质上讲,这个变量设置并不合理。 如何避免辛普森悖论: 辛普森悖论会导致统计上的一些错误结论,要避免掉入辛普森悖论的陷阱,要从一下两方面着手: 1. 进行合理的变量设计,进行合理的变量关系验证 如上述实例,出现辛普森悖论的很大一个原因是由于变量设计不合理,在研究之初就漏掉了“专业”这个重要潜伏变量(,而直接将性别与录取率建立了联系。因此,在进行变量设计时,一是要尽量多查阅文献以了解自变量,因变量及其他重要变量之间的关系,二是积累相关的经验,能够敏锐地察觉到某个变量的重要性。 (这个重要潜伏变量指的是与实验分析的因果都有关系的变量,这一变量的缺失可能会掩盖或颠倒研究变量的原有关系。 比如在录取率这个例子中,专业既与录取率有关,不同专业难度不同,录取率自然有差异,又与性别有关,女生和男生趋向报考的专业不同。因此专业就是一个重要潜伏变量。) 2. 进行科学合理的抽样 在进行抽样调查时应选择合适的抽样方法或多种抽样方法并存,保证抽取的样本处于远离极端范围的中间区域,在进行非比例抽样时,应慎重考虑权重的问题。 拓展知识点(低频、难度较大,选择性掌握) 1、幸存者偏差 定义:幸存者偏差是一种选择偏倚,就是忽略了筛选条件,把经过筛选的结果当成随机结果。 实例:统计结果显示,机翼中弹的飞机生还概率远高于驾驶舱和机尾中弹的飞机。但驾驶舱和机尾中弹的飞机很少回来,基本不在样本之中 如何避免:谨慎进行样本选择,当样本出现严重偏斜时,考虑出现原因及合理性。 2、相关性分析(皮尔森person相关系数、spersman相关系数、肯德尔kendall秩相关系数) 定义:相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。常用的相关系数有皮尔森person相关系数、spersman相关系数、肯德尔kendall秩相关系数 皮尔森person相关系数:两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商。 person相关系数取值区间[-1,1],若person相关系数接近0,无相关性;person相关系数接近-1或+1,有较强相关性 spersman相关系数:采用的是取值等级进行相关性计算, 计算过程:首先对两个变量(X, Y)的数据进行排序,然后记下排序以后的位置(X’, Y’),(X’, Y’)的值就称为秩次,秩次的差值就是上面公式中的,n就是变量中数据的个数,最后带入公式就可求解结果。举例说明,假设我们实验的数据如下: 利用计算出的秩次差的平方代入上述公式进行计算,便可得到spersman相关系数 特点:1. 即便在变量值没有变化的情况下,也不会出现像皮尔森系数那样分母为0而无法计算的情况。另外,即使出现异常值,由于异常值的秩次通常不会有明显的变化(比如过大或者过小,那要么排第一,要么排最后),相对于皮尔森相关系数,斯皮尔曼相关系数对于数据错误和极端值的反应不敏感。 2. 斯皮尔曼相关性系数没有数据条件要求,适用的范围较广,在生物实验数据分析中,尤其在分析多组交叉数据中说明不同组数据之间的相关性时,使用的频率很高。 Kendall相关系数:肯德尔(Kendall)系数又称一致性系数,是表示多列等级变量相关程度的一种方法,也是一种秩相关系数,计算对象是分类变量,适用于两个分类变量均为有序分类的情况。 适用情况:评委对选手的评分(优、中、差等),想看两个(或者多个)评委对几位选手的评价标准是否一致;或者医院的尿糖化验报告,想检验各个医院对尿糖的化验结果是否一致,这时候就可以使用肯德尔相关性系数进行衡量。 因计算公式过于复杂,不予展示 面试问题 1、简述中心极限定理、大数定律(字节、拼多多) 2、假设检验的定义、第一类错误、第二类错误(字节跳动、快手) 3、T检验、Z检验、F检验、卡方检验的定义、适用情况(快手、腾讯、小米) 4、辛普森悖论的定义及实例(腾讯、字节) 5、幸存者偏差现象(腾讯) 6、相关系数的取值范围及相关系数为0的意义(阿里) 7、参数估计有哪些方法 8、点估计和区间估计的区别和联系(字节) 9、极大似然估计是什么(字节) 10、参数估计和假设检验的联系和区别(阿里)
点赞 20
评论 2
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
10-12 17:17
华南师范大学 深度学习
难道我真的只是秋招低保offer的命吗
本硕双2,研究方向是深度学习和计算成像。直到九月中旬我才意识到秋招到来了,急急忙忙地投简历,投了一堆算法和计算机视觉相关的岗位,然后开始刷牛客的题刷了半个月(力扣刷了基础100题中的前几道做的很晕,所以换牛客了)。目前offer只有一个点击就送的华星,但岗位不太对,薪资也不高,才17w左右。国庆过后投的企业发了一堆笔试过来,我才发现我什么都不会,选择题和代码看的我头大,我是不是秋招已经没有进大厂找到高薪资工作的可能了?难道我真的只是个本质菜比,一辈子都是底层的命吗?唯一的机会是不是继续刷题刷到春招再去投啊
秋招的第一个offer,...
点赞
评论
收藏
分享
10-10 10:50
网易游戏_游戏研发工程师(准入职员工)
网易互娱内推,网易互娱内推码
终于下班了!辛苦自己了🫰🏻 总体来说整个一周的体验还是比较ok! 网易的基础设施和员工福利都蛮不错 ✅免费健身房 器械基本都很全 而且配备淋浴间 ✅免费食堂 发易豆🫘一日三餐都很够~ 早餐有很多选择 比如肠粉小面自助餐 而且有非常贴心的打包服务 正餐基本什么口味都有: 川菜 麻辣烫 泰餐 粤菜 自助 糖水 面食 ✅免费班车 ✅弹性打卡 早十晚六~~网易游戏(互娱)2026届校园招聘启动啦内推福利推荐(仅限第一志愿)直通笔试或简历优先筛选【企业介绍】国内知名游戏发行商,持续在不同领域推出爆款游戏,已创造一系列旗舰IP与热门产品,如《梦幻西游》、《大话西游》、《阴阳师》、《蛋仔派对》、《哈利...
网易游戏公司福利 523人发布
点赞
评论
收藏
分享
08-26 15:11
凯里学院 硬件测试
给点建议吧,找不到工作了
用微笑面对困难:
只要你保证项目和获奖都是真的就行
尤其是“对战,总负责人”啊这些套职,基本上队员,打杂的都这么写
点赞
评论
收藏
分享
09-01 09:51
门头沟学院 后端工程师
准备秋招了,可以帮忙看下简历吗?
鼠鼠是一个小透明😭😭
你的简历改到第几版了
点赞
评论
收藏
分享
昨天 14:58
门头沟学院 集成电路IC设计
淘汰的更多是不会用ai的人
10月10号,中央网信办、国家发展改革委印发的《政务领域人工智能大模型部署应用指引》也明确大力支持推进人工大模型的部署。以最基础的厨师为例,我遇过几家已经采用了机器人厨师,但是机器人炒菜也就是量大翻炒省力,复杂的精美的还是需要人进行控制。不仅仅是厨师,凡是需要人负责、有人文关怀的职业就不可能被ai取代,因为少了背锅和负责的,例如买车,是ai机器人给你介绍好,还是美女销售服务好。客服难解决的也需要转人工。但是不可避免名额会少去不少。就那现在我自己的JAVA后端来说,ai更多是作为一个富足工具,能够替代给出解决方案和一些代码测试,我个人理解,ai能够加快构造小模块,当后面的整合资源的工作,包括能不...
你觉得什么岗位会被AI替...
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
从摆烂到OC,嵌入式人的血泪史
4892
2
...
害,找工作哪有不上当的!
4700
3
...
找到靠谱的公司,少走些弯路
3357
4
...
双非秋招大厂time line参考
3175
5
...
26国考公告出炉,放宽到38岁意味着什么
2954
6
...
最近面试回答不出来的题
2913
7
...
末9四段大厂实习|秋招收尾结束
2795
8
...
牛牛求救🆘,不敢梭哈后端第二技能点怎么搭配
2336
9
...
国庆可能会被打折,但发疯文学永远不打折!
2189
10
...
下一站回家
2138
创作者周榜
更多
正在热议
更多
#
找工作中的小确幸
#
10979次浏览
99人参与
#
秋招踩过的“雷”,希望你别再踩
#
20839次浏览
230人参与
#
爱玛科技集团求职进展汇总
#
30333次浏览
209人参与
#
面包vs爱情,怎么选?
#
17434次浏览
187人参与
#
实习在多还是在精
#
3612次浏览
44人参与
#
发面经攒人品
#
2352409次浏览
32706人参与
#
反问环节如何提问
#
107140次浏览
2011人参与
#
实习下班不想学习,正常吗?
#
3938次浏览
53人参与
#
机械求职避坑tips
#
67467次浏览
449人参与
#
校招谈薪一定要知道的事
#
3648次浏览
53人参与
#
你觉得什么岗位会被AI替代
#
5035次浏览
84人参与
#
贝壳求职进展汇总
#
36433次浏览
203人参与
#
机械人值得去的小众企业
#
24500次浏览
54人参与
#
浪潮求职进展汇总
#
18059次浏览
137人参与
#
秋招结束之后的日子
#
88994次浏览
986人参与
#
实习最想跑路的瞬间
#
82130次浏览
524人参与
#
你做过哪些dirty work
#
20088次浏览
143人参与
#
选完offer后,你后悔学机械吗?
#
39590次浏览
243人参与
#
投格力的你,拿到offer了吗?
#
119391次浏览
686人参与
#
诺瓦星云求职进展汇总
#
220099次浏览
1715人参与
#
机械人,签完三方你在忙什么?
#
61911次浏览
235人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务