数据分析师高频面试题汇总1

1、问:统计学的基本方法论,也就是拿到数据怎么分析?(京东数科)

参考答案:

统计学是一门综合性的学科,会通过收集、处理、分析、描述等一系列步骤从数据中得出结论。以下分别介绍包括描述统计和推断统计在内的统计学的基本方法论,以这两种方法论为分析主线能够较为全面地对数据进行分析。

1) 描述统计

描述统计通过图表或数学方法,对样本数据进行整理、分析,然后概括总结出反映客观现象的规律。其中图表描述方法就是使用各类图表在不同的维度下描述数据,比如直方图、饼图、雷达图、散点图等等。而数学描述方法的分析方法更丰富,常有集中趋势分析、离散程度分析、相关分析三种分析方法。

A. 集中趋势分析

平均数、中数、众数等是集中趋势分析常用来表示数据集中趋势的统计指标,通过这些指标能够反映样本数据的一般水平。

B. 离散程度分析

离中趋势分析主要依赖标准差、方差(协方差)等统计指标来研究数据的离散程度,能够出色地表示数据之间的差异程度。

C. 相关分析

无论是自变量与自变量之间还是自变量与因变量之间都存在潜在地关联性,相关分析探讨的就是变量之间是否具有统计学上的关联性。进行相关分析时,变量数量可以是两个也可以是多个,能够进行单一或多重相关关系分析。

2) 推断统计

推断统计是一种通过样本数据来推断总体特征的统计方法,以部分抽样样本进行延伸推论,并进一步给出推理性结论。

A. 参数估计

顾名思义,参数估计就是根据样本数据对总体参数进行估计的过程,可分为点估计和区间估计两种分析方法。点估计是以样本具体数值为代表数据,区间估计是根据样本数据,计算置信区间及该区间的置信度。

B. 假设检验

假设检验是一种先假设后推理论证检验的思想。首先对总体参数提出一个假设,然后基于样本数据判断该假设是否成立,做出接受还是拒绝该假设的结论。


2、问:如何用统计学的角度看待新冠疫情?(用统计学知识对疫情相关指标进行分析/解释)(京东数科)

参考答案:

1. 新冠病毒潜伏期(统计学知识点:数据分布)

2. 疾病的潜伏期通常可以用对数正态分布来近似,我们现阶段采取的隔离措施是将一般潜伏期设定为14天内,但是在后续的病例中我们发现个别患者的潜伏期长达24天,并不是病毒发生了变异,而是新冠病毒的潜伏期实际呈右偏状态,属于长尾分布,较长潜伏期的病例并非不会出现,而是概率很小。新冠病毒传播(统计学知识点:随机过程)

病毒传播实际上是一个随机事件,这一过程可以用随机微分方程来进行模拟,比如SEIR模型。

(1)易感状态S (Susceptible)∶表示潜在的可感染个体。在以往的一些文章中,会有学者将S设置为一个地区的总人口数,导致模型中的感染人数预测结果偏高,这是因为实际上只有有机会接触到感染者的个体才属于易感人群,因此易感状态个体的数量最好由实际数据去拟合。

(2)潜伏状态E(Exposed)∶已被感染但尚未表现出感染症状的个体。

(3)感染状态I(Infected)∶已有感染症状并且可以将疾病传染给其他人的个体。

(4)移除状态R(Removed)∶已经治愈并获得免疫力或已经死亡等不会再被传染的个体。记N为人群中个体的总数量,则有N = S+E+Ⅰ+R。

3. 新冠患者诊断(统计学知识点:模型评价)

4. 疫情期间,随着病毒不断传播,全国各地每天都在进行核酸检测与病例诊断,但现阶段我们无法完全准确地区别出病例,这就有可能导致误诊。各种检测手段和医生的诊断结合起来类似一个判别模型,患者的各项指标输入到这个模型得出最终的分类结果,患者的实际患病情况和医生的诊断结果共同构成混淆矩阵,当误诊率越低,说明当前的模型(诊断方法)越好。疫情分析观测指标(统计学知识点:基本统计指标)

感染率=感染人数/总人口数

病死率=因某种病死亡人数/患病人数

死亡率=因某种疾病死亡人数/总人口数=感染率*病死率


3、简述方差分析概念(京东)

参考回答

方差分析(Analysis of variance,简称ANOVA)为数据分析中常见的统计模型,主要为探讨连续型因变量与类别型自变量的关系,当自变量的因子中包含等于或超过三个类别情况下,检验其各类别间平均数是否相等的统计模式。广义上可将T检验中方差相等的合并T检验视为是方差分析的一种,基于T检验为分析两组平均数是否相等,实际上当方差分析套用在合并T检验的分析上时,产生的F值则会等于T检验的平方项。

方差分析依靠F-分布为概率分布的依据,利用平方和与自由度所计算的组间与组内均方估计出F值,若有显著差异则考量进行事后比较或称多重比较。

在方差分析的基本运算概念下,依照因子数量而可分为单因子方差分析、双因子方差分析、多因子方差分析三大类;依照因子的特性不同而有三种型态,固定效应方差分析、随机效应方差分析与混合效应方差分析。

方差分析优于两组比较的T检验之处,在于后者会导致多重比较的问题而致使第一型错误的机会增高,因此比较多组平均数是否有差异则是方差分析的主要命题。

在统计学中,方差分析是一系列统计模型及其相关的过程总称,其中某一变量的方差可以分解为归属于不同变量来源的部分。其中最简单的方式中,方差分析的统计检验能够说明几组数据的平均值是否相等,因此得到两组的T检验。在做多组双变量T检验的时候,错误的概率会越来越大,特别是第一型错误,因此方差分析只在二到四组平均值的时候比较有效。


4. 商城每天的人流量属于什么分布?泊松分布和二项分布的关系?(猿辅导)

参考回答

泊松分布。泊松分布是⼆项分布的近似,当⼆项分布的p很⼩,重复试验次数

n很⼤时,两者分布接近。

答案解析

二项分布指已知某件事情发⽣的概率是p,那么做n次试验,事情发⽣的次数就服从于二项分布。

泊松分布是指某段连续的时间内某件事情发⽣的次数,⽽且“某件事情”发生所用的时间是可以忽略的。

商场每天是⼀个连续的时间,如果把每⼀天分割成⽆数的⼩份,那么每⼀段时间内发生的事件都是独立的,在⼀个极小的时间内,⼈们进出的概率为p。那么在一天内,就有n次发⽣⼈们进出这个事件。⽽当n很⼤,p很⼩,二项分布计算概率的公式会趋向于泊松分布。


5、二项分布趋近泊松分布的n和p大概是多少,这个值怎么来的?(猿辅导)

参考回答

泊松分布,二项分布都是离散分布。二项分布有两个参数,一个n 表示试验次数,一个 p 表示一次试验成功概率。考虑一列二项分布,其中试验次数 n 无限增加,而 p 是 n 的函数,如果 np 存在有限极限 λ,则这列二项分布就趋于参数为 λ 的 泊松分布。

答案解析

二项分布描述的是发生次数,而不是量值。二项分布的公式如下:

其中,n 是观测值数量,p 是发生概率,x 是成功次数(从 0 到 n)。如果 n 值较大且 p 值较小,则二项分布接近泊松分布。这种情况下使用泊松分布会更加简便。二项分布将返回代表 n 次试验中成功次数的随机变量,其中每次试验的成功概率为 p(例如,硬币正面朝上的概率为 p)。

泊松分布是一种离散型概率分布。泊松分布适合在给定一个已知平均值的情况下对固定时间步长内事件的发生次数概率进行模拟。泊松分布的公式如下:

其中,e 是自然对数的底,x 是事件的可能发生次数(正整数),λ(平均值)是一个正数,代表指定区间内事件的预期发生次数。如果事件在 1 小时内(60 分钟)每 10 分钟发生一次,则 λ 为 6。

泊松分布与二项分布类似,但泊松分布是在不知道事件的可能发生总次数的情况下对小概率事件建模。例如,泊松分布的建模对象是十字路口的事故发生次数,而二项分布的建模对象是事故发生次数与经由十字路口的汽车数量之间的相对关系。

#学习路径#
全部评论
数据分析真是需要聪明的人干啊,我都不敢涉足的
点赞 回复
分享
发布于 2022-02-10 13:00
看完这篇文章使我对数据分析的距离更加疏远了
点赞 回复
分享
发布于 2022-04-04 22:05
联易融
校招火热招聘中
官网直投
数据分析会提问这么多统计学题目吗?
点赞 回复
分享
发布于 2022-04-08 16:15

相关推荐

14 194 评论
分享
牛客网
牛客企业服务