首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
炸鸡来建房子
上海交通大学 数据分析师
发布于北京
关注
已关注
取消关注
@小7和数分手拉手:
成为数据分析师之学习路线分享
一、岗位分析 数据中台数据分析:这种在规模比较大一点的公司会有专门的数据团队,负责各个业务线的数据分析工作,有专门的数据领导,不隶属于业务线。公司内部数据地位较高,数据权限较大。 数据科学家:一般归属于算法团队,主要做模型的理论研究及应用,日常工作内容多数时候在研究论文 业务数据分析:业务线下的数据分析师,主要为了快速的业务需求响应,日常工作主要是为了配合产品和运营做一些产出,数据权限及地位均不太高。 二、技能需求 1、统计学知识 ① 各种图形图表 ② 中位数、众数、均值、方差、标准差、相关系数、随机变量、离散变量、连续变量、贝叶斯公式、条件概率、自由度、峰度、偏度、相关性与因果性等等。 ③ 各种常见分布:二项分布、泊松分布、伯努利分布、均匀分布、正态分布、指数分布、卡方分布、F分布、t分布、Z 分布 ④ 大数定律与中心极限定理:切比雪夫大数定理、伯努利大数定律、辛钦大数定律、中心极限定理 ⑤ 假设检验P 值、置信区间、第一类错误、第二类错误、置信度、检验效能、单边与双边 2、业务理解 ① 整个公司的业务流程: 具体而言依公司而定,不同公司根据定位不同,有不同的业务流程。 比如一个新闻资讯类app, 我们可以通过内容和用户两侧进行分析,内容侧有整个的发文流程,如何从用户作者创造出作品,到呈现到用户面前,甚至于到后期作品的召回; 用户侧,则是从用户的来源渠道,到启动ap p, 再到在各个内容页的具体消费等等。 ② 场见业务分析思路: RFM模型 漏斗模型(AARRR模型) 多维度拆解归因5W2HPEST模型...... 3、SQL DDL数据定义语言: CREATE:创建数据库和表等对象(上传内容到新表、创建新表储存从其他表筛选过来的内容) DROP:修改数据库和表等对象(直接删除命令) ALTER:修改数据库和表等对象的结构(不常用)(用法:add 字段名、drop 字段名、modify column 字段名 数据类型 属性) DML数据操纵语言: SELECT查询表中的数据: select、from、where、group by、having、order by、limit 数据类型:int、float、char、varchar、string、date、array 嵌套查询: 1、标量子查询2、关联子查询3、普通子查询:①将子查询的结果列,作为主查询的取值范围 ②将二维表作为主查询新的检索表 表联结: 自联结 组合查询(union、union all) 内部联结(inner join) 外部联结(left/right/full outer join) 常用函数: 条件函数:if、case when、nvl、coalesce、isnull... 数值型函数:rand、round、floor、ceil... 字符串函数:length、concat、upper、substr、split、get_json_object、regexp_extract... 日期函数:from_unixtime、unix_timestamp、datediff、date_sub、date_add、date_format... 聚合函数:count、sum、avg、min、max、percentile、percentile_appro x... 转换函数:cast、convert 窗口函数: 排序函数:rank()、dense_rank()、row _number() 分布函数:percent_rank()、cume_dist() 前后函数:lag()、lead() 聚合函数:sum()、avg()、count()、max()、min () INSERT向表中插入新数据: 1、插入字段数据(完整行/部分行) 2、插入select中的内容 UPDATE更新表中数据: 既可以更新指定列的值,也可以删除指定列的值 DELETE删除表中数据: 根据where删除指定行的数据,当不指定条件时,删除全部数据,但表依然存在,相对而言,truncate table删除所有数据的速度更快。 DCL数据控制语言 在SQL语言中,是一种可对数据访问权进行控制的指令,它可以控制特定用户账户对数据表、查看表、存储程序、用户自定义函数等数据库对象的控制权。一般用不到。 4、Python python基础知识: ①变量、对象、自定义函数 ②数据类型:字符串、整数、浮点数、布尔值 以及各种数据类型对应的函数及转换函数 ③数据结构类型:列表、元组、集合、字典 以及各种数据结构所特有的功能和对应的函数 ④逻辑结构if语句for循环while语句 python知识进阶: pandas包:pandas功能相当强大,尤其是在数据清洗方面,我们日常需要掌握的是pand as的众多函数与numpy之间的相互转化... sklearn包:sklearn 包的主要功能是进行模型的搭建、参数调优及效果检验,但这些功能的实现都是建立在我们熟悉各个模型原理功能的基础上。 numpy包:常用功能--生成伪随机数、数组形状改变、四则运算与比较运算、广播运算、统计函数查看数组性质、numpy数组与pandas的DataFrame之间的相互转化... 此外还有很多使用频率没那么高的包,比如seaborn、matplotlib.pyplot、time、datetim e、math 等等,具体使用时,可以去查看功能。 5、excel 数据相关: ①公式与函数:例如:VLOOKUP、COUNT、MAX、RAND 等等。 ②数据计算:分列、删除重复项、合并计算、模拟分析等等。 ③数据处理 排序:简单排序、多关键词排序、自定义排序 筛选:自定义、高级、搜索功能 分类汇总:.... 图表相关: ①普通图表:常用图表、设置标签、添加趋势线、更改布局等等。 ②数据透视表 ③单元格创建图形 6、模型搭建分类模型:①有监督:朴素贝叶斯 KNN LR SVM 树模型(单分类模型:ID.3、C4.5、CART boosting模型:AdaBoost算法、GBDT算法(XGBoost、LightGBM) bagging 模型:随机森林 孤立森林) ②无监督: K-means DBSCAN 聚类 层次聚类 高斯混合模型 自组织映射神经网络 神经网络 回归模型: 线性回归LASSO回归岭回归神经网络也可以用作回归模型一般以CART树为分类器或基分类器的模型也可以用作回归,但日常使用频率不高。 模型搭建中的问题: 样本不均衡: ①采样途径解决(过采样,常用S M O TE算法;欠采样,减少多数类样本的数量。) ②惩罚权重(带权值的损失函数、难例挖掘。) 特征加工:①数据的解码:列表、字典、时间戳等各种形式的数据的前期处理操作。②数据清洗:对重复值、缺失值、异常值等的处理。③特征归一化:线性函数归一化/零均值归一化④离散特征处理:序号编码、独热编码、二进制编码 特征降维:假降维:PCA算法降维真降维:线性判别分析R FE筛选变量树模型的特征筛选聚类筛选特征变量 模型评估:过拟合与欠拟合: 由此衍化而来的误差、方差、偏差问题。 评价指标: ①预测问题 MSE、RME、MAE、MAPE等。 ②二分类问题准确率、精确率、召回率、F1值、ROC 曲线、AUC值、KS曲线、PR曲线等。 ③多分类问题 混淆矩阵 模型验证方法: Holdout检验、交叉检验、自助法 超参数调优: 网格搜索、随机搜索
点赞 64
评论 5
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
昨天 17:17
广东工业大学 运营
实习生为什么不能准点走啊?
真的无语啊刚入职不到一周,mt没说需要加班,所以我到点就走了,没想到今天被leader找了!说以后不要那么早走我又不转正又没工资也没给我安排事做我就一个实习生准点走还要被说我靠了
实习生的蛐蛐区
点赞
评论
收藏
分享
07-23 12:04
门头沟学院 Java
PDD好主动呀
现在是很缺人吗
码农索隆:
缺分母,不缺分子,这样好作为炫耀的资本
点赞
评论
收藏
分享
06-10 11:37
已编辑
陕西理工大学 Java
东软
有点抽象,面了7分钟,然后就过了。真点击即送。问了下体重啥的,然后让我用日语介绍了下,讲了下项目,就没了。???
阿14:
在东软摸鱼算不算抗日
东软集团开奖3人在聊
点赞
评论
收藏
分享
07-20 18:34
广东药科大学 Java
有没有大佬给我的简历提一点意见,马上秋招了双非没实习感觉要寄了
Alan_01:
黑马点评跟苍穹外卖?
无实习如何秋招上岸
点赞
评论
收藏
分享
07-18 09:51
杭州电子科技大学 大数据开发工程师
数据人的实习生存指南
许多新入职的同学在第一周都在忙着搞环境,申请权限,看文档,其实不止要做这些,还有很多更重要的点需要注意:1. 摸清楚业务全貌,尽可能地去了解数据库表,梳理整个业务流程。2. 找出最重要的数据模型,理解这些数据模型的构建、设计思路,能掌握多少掌握多少。3. 熟悉下部门使用的技术栈,了解下整体的架构和技术选型4. 掌握清楚人员分工,哪位同事在做什么内容,负责什么内容的工作,数据域是怎么划分的5. 判断下当前的数仓建设进度,是处于起步、扩张、还是变更重构的时期6. 跑一遍开发环境,花1-2天的时间完整体验一遍开发的流程这时候,领导通常会安排简单的需求让你进行练手,这个时候主动性就是你最重要的加分项,...
如何提高实习转正率?
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
实习包装不是吹牛皮,要怎么包装看这里
5.1W
2
...
实习,你就这么偷
8905
3
...
百度一二面凉经
5235
4
...
河南萌新联赛2025第(二)场:河南农业大学_题解
4084
5
...
百度一面面经7.14
3542
6
...
百度提前批后端一面 —— 亚历山大,特批拿下
2910
7
...
再再再再强调一遍!秋招不要装逼
2800
8
...
鼠鼠终于有着落了
2627
9
...
26届米哈游秋招提前批面经(游戏客户端)已挂
2507
10
...
滴滴提前批
2455
创作者周榜
更多
正在热议
更多
#
哪些公司开提前批了?
#
17424次浏览
206人参与
#
你投递的公司有几家约面了?
#
108008次浏览
769人参与
#
校招阶段,学历VS技术哪个更重要?
#
13768次浏览
165人参与
#
实习如何「偷」产出?
#
38868次浏览
883人参与
#
Offer比较,你最看重什么?
#
190944次浏览
1298人参与
#
除了主业以外,你还有哪些其他收入?
#
8885次浏览
162人参与
#
正在实习的碎碎念
#
1453047次浏览
13466人参与
#
不卡学历的大厂有哪些?
#
21477次浏览
163人参与
#
你的秋招第一面感觉怎么样
#
74476次浏览
574人参与
#
风评不好的公司,你会去吗?
#
48748次浏览
363人参与
#
职场新人体验
#
18881次浏览
180人参与
#
实习打杂,要跑路吗
#
15618次浏览
191人参与
#
腾讯音乐求职进展汇总
#
97563次浏览
566人参与
#
校园里的破防时刻
#
8647次浏览
104人参与
#
社恐入职新公司如何融入团队
#
11340次浏览
62人参与
#
实习时,大家都怎么称呼自己的mentor?
#
43459次浏览
273人参与
#
面试中,你被问过哪些奇葩问题?
#
70440次浏览
802人参与
#
摸鱼被leader发现了怎么办
#
60978次浏览
371人参与
#
软开人,秋招你打算投哪些公司呢
#
107870次浏览
978人参与
#
金融财经春招备战日记
#
23009次浏览
135人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务