某公司数据分析岗笔试整理【解惑+改错】
时长:1小时
题型:20*3 选择 2*20 问答
问答
1. 什么情况下要进行归一化?为什么要进行归一化?
2. 什么是过拟合?什么情况下会出现过拟合?如果降低过拟合?
选择
以下的选择题是我根据记忆选择出的重点,其中有下划线的是我没有思路的题,有路过懂的同学帮忙解惑呀~
有哪里有不对的可以帮忙纠正,一起查缺补漏!!😎
1. SVM超平面进行投影,一定线性不可分
对于任意线性可分的两组点,它们在SVM分类的超平面上的投影都是线性不可分的
2.关于假设检验的第一类错误和第二类错误
第一类错误:原假设为真,拒绝原假设为第一类错误
第二类错误:原假设为假,接受原假设为第二类错误
3.Var的计算方法[正态和蒙特卡洛]
Var是Value at Risk的缩写,旨在估计给定金融资产或者资产组合在未来资产价格波动下的潜在损失
Var的计算方法包括:正态方法、历史模拟法、蒙特卡罗模拟法
4.数据降维的方法[A 合并属性 B主成分分析 C决策树归纳 ABC]
数据规约:产生更小且保持数据完整性的新数据集,意义在于降低无效、错误的数据,降低存储成本,少量且具有代表性的数据
主要方法: 合并属性、逐步向前选择、逐步向后删除、决策树归纳、主成分分析
5适合t检验的样本分布特点
T检验主要用于样本含量比小,总体标准差未知的正态分布
6.用置信区间进行计算[不记得了]
7.数据分析师应该避免[A数据没有噪声 B抛开基数谈增长 C简单排除异常点 D考虑数据的季节性 ABC]
10条需要避免的数据圈套:假设数据没有噪声、忘记归一化、排除异常点、忽略季节性、抛开基数谈增长、数据呕吐、谎报军情的指标、“不是在这收集”的综合征、关注噪音
【摘自《精益数据分析》】
8.关于集成学习描述错误的:个体学习存在强依赖关系,才能用集成学习
Bagging是一种个体学习器之间不存在强依赖关系、可同时生成的并行集成学习方法
9.用于数据转换的方法[A对数、B倒数、C相反数D指数 AB]
对数转换、平方根转换、平方根正弦转换、平方转换、倒数变换
10.Kappa的解释
Kappa系数用于一致性检验,也可以用于衡量分类精度,它的计算基于混淆矩阵
计算结果在-1~1之间,kappa通常落在0~1之间
可分为五组来表示不同级别的一致性:
0.0~0.20极低的一致性(slight)、
0.21~0.40一般的一致性(fair)、
0.41~0.60 中等的一致性(moderate)、
0.61~0.80 高度的一致性(substantial)和0.81~1几乎完全一致(almost perfect)
11.EM算法的相关描述[不了解]
12.视图的优点[逻辑独立]
视图的优点,对于数据库的重构造提供了一定程度的逻辑独立性、简化了用户观点、对机密数据提供了自动的安全保护功能、能使不同用户以不同的方式看待同一数据
13.计算概率 错过火车[不记得了]
14.分类与预测的算法[A决策树、B支持向量机、C贝叶斯网络、D人工神经网络 ABCD]
常用分类与预测算法:决策树、支持向量机、贝叶斯网络、人工神经网络、回归分析
15.归一化转换[max-200 min-80 转换到0-1之间 转换结果120]
16.Python进行数据分析和机器学习的基础包[A numpy B pandas C matplotlib D scipy ABC]
17.交通事故发生服从[正态分布]???
18.收盘价相同A[2跌停 3涨停]、B[3涨停 2跌停]股市,比较A、B最终价格???
19.监督与非监督算法的分类[PCA是非监督学习算法]
20.均值和中位数相等的分布[A 二项分布 B正态分布 C泊松分布 C指数分布 B]
标准正态分布:均值=中位数=众数
#笔试题目##数据分析师#