首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
调皮的咸鱼在做毕设
浙江工商大学 数据分析师
发布于浙江
关注
已关注
取消关注
@小7和数分手拉手:
成为数据分析师之学习路线分享
一、岗位分析 数据中台数据分析:这种在规模比较大一点的公司会有专门的数据团队,负责各个业务线的数据分析工作,有专门的数据领导,不隶属于业务线。公司内部数据地位较高,数据权限较大。 数据科学家:一般归属于算法团队,主要做模型的理论研究及应用,日常工作内容多数时候在研究论文 业务数据分析:业务线下的数据分析师,主要为了快速的业务需求响应,日常工作主要是为了配合产品和运营做一些产出,数据权限及地位均不太高。 二、技能需求 1、统计学知识 ① 各种图形图表 ② 中位数、众数、均值、方差、标准差、相关系数、随机变量、离散变量、连续变量、贝叶斯公式、条件概率、自由度、峰度、偏度、相关性与因果性等等。 ③ 各种常见分布:二项分布、泊松分布、伯努利分布、均匀分布、正态分布、指数分布、卡方分布、F分布、t分布、Z 分布 ④ 大数定律与中心极限定理:切比雪夫大数定理、伯努利大数定律、辛钦大数定律、中心极限定理 ⑤ 假设检验P 值、置信区间、第一类错误、第二类错误、置信度、检验效能、单边与双边 2、业务理解 ① 整个公司的业务流程: 具体而言依公司而定,不同公司根据定位不同,有不同的业务流程。 比如一个新闻资讯类app, 我们可以通过内容和用户两侧进行分析,内容侧有整个的发文流程,如何从用户作者创造出作品,到呈现到用户面前,甚至于到后期作品的召回; 用户侧,则是从用户的来源渠道,到启动ap p, 再到在各个内容页的具体消费等等。 ② 场见业务分析思路: RFM模型 漏斗模型(AARRR模型) 多维度拆解归因5W2HPEST模型...... 3、SQL DDL数据定义语言: CREATE:创建数据库和表等对象(上传内容到新表、创建新表储存从其他表筛选过来的内容) DROP:修改数据库和表等对象(直接删除命令) ALTER:修改数据库和表等对象的结构(不常用)(用法:add 字段名、drop 字段名、modify column 字段名 数据类型 属性) DML数据操纵语言: SELECT查询表中的数据: select、from、where、group by、having、order by、limit 数据类型:int、float、char、varchar、string、date、array 嵌套查询: 1、标量子查询2、关联子查询3、普通子查询:①将子查询的结果列,作为主查询的取值范围 ②将二维表作为主查询新的检索表 表联结: 自联结 组合查询(union、union all) 内部联结(inner join) 外部联结(left/right/full outer join) 常用函数: 条件函数:if、case when、nvl、coalesce、isnull... 数值型函数:rand、round、floor、ceil... 字符串函数:length、concat、upper、substr、split、get_json_object、regexp_extract... 日期函数:from_unixtime、unix_timestamp、datediff、date_sub、date_add、date_format... 聚合函数:count、sum、avg、min、max、percentile、percentile_appro x... 转换函数:cast、convert 窗口函数: 排序函数:rank()、dense_rank()、row _number() 分布函数:percent_rank()、cume_dist() 前后函数:lag()、lead() 聚合函数:sum()、avg()、count()、max()、min () INSERT向表中插入新数据: 1、插入字段数据(完整行/部分行) 2、插入select中的内容 UPDATE更新表中数据: 既可以更新指定列的值,也可以删除指定列的值 DELETE删除表中数据: 根据where删除指定行的数据,当不指定条件时,删除全部数据,但表依然存在,相对而言,truncate table删除所有数据的速度更快。 DCL数据控制语言 在SQL语言中,是一种可对数据访问权进行控制的指令,它可以控制特定用户账户对数据表、查看表、存储程序、用户自定义函数等数据库对象的控制权。一般用不到。 4、Python python基础知识: ①变量、对象、自定义函数 ②数据类型:字符串、整数、浮点数、布尔值 以及各种数据类型对应的函数及转换函数 ③数据结构类型:列表、元组、集合、字典 以及各种数据结构所特有的功能和对应的函数 ④逻辑结构if语句for循环while语句 python知识进阶: pandas包:pandas功能相当强大,尤其是在数据清洗方面,我们日常需要掌握的是pand as的众多函数与numpy之间的相互转化... sklearn包:sklearn 包的主要功能是进行模型的搭建、参数调优及效果检验,但这些功能的实现都是建立在我们熟悉各个模型原理功能的基础上。 numpy包:常用功能--生成伪随机数、数组形状改变、四则运算与比较运算、广播运算、统计函数查看数组性质、numpy数组与pandas的DataFrame之间的相互转化... 此外还有很多使用频率没那么高的包,比如seaborn、matplotlib.pyplot、time、datetim e、math 等等,具体使用时,可以去查看功能。 5、excel 数据相关: ①公式与函数:例如:VLOOKUP、COUNT、MAX、RAND 等等。 ②数据计算:分列、删除重复项、合并计算、模拟分析等等。 ③数据处理 排序:简单排序、多关键词排序、自定义排序 筛选:自定义、高级、搜索功能 分类汇总:.... 图表相关: ①普通图表:常用图表、设置标签、添加趋势线、更改布局等等。 ②数据透视表 ③单元格创建图形 6、模型搭建分类模型:①有监督:朴素贝叶斯 KNN LR SVM 树模型(单分类模型:ID.3、C4.5、CART boosting模型:AdaBoost算法、GBDT算法(XGBoost、LightGBM) bagging 模型:随机森林 孤立森林) ②无监督: K-means DBSCAN 聚类 层次聚类 高斯混合模型 自组织映射神经网络 神经网络 回归模型: 线性回归LASSO回归岭回归神经网络也可以用作回归模型一般以CART树为分类器或基分类器的模型也可以用作回归,但日常使用频率不高。 模型搭建中的问题: 样本不均衡: ①采样途径解决(过采样,常用S M O TE算法;欠采样,减少多数类样本的数量。) ②惩罚权重(带权值的损失函数、难例挖掘。) 特征加工:①数据的解码:列表、字典、时间戳等各种形式的数据的前期处理操作。②数据清洗:对重复值、缺失值、异常值等的处理。③特征归一化:线性函数归一化/零均值归一化④离散特征处理:序号编码、独热编码、二进制编码 特征降维:假降维:PCA算法降维真降维:线性判别分析R FE筛选变量树模型的特征筛选聚类筛选特征变量 模型评估:过拟合与欠拟合: 由此衍化而来的误差、方差、偏差问题。 评价指标: ①预测问题 MSE、RME、MAE、MAPE等。 ②二分类问题准确率、精确率、召回率、F1值、ROC 曲线、AUC值、KS曲线、PR曲线等。 ③多分类问题 混淆矩阵 模型验证方法: Holdout检验、交叉检验、自助法 超参数调优: 网格搜索、随机搜索
点赞 64
评论 5
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
昨天 14:13
浙江大学 设计
计算机未来吃香的方向??
真的假的?绷不住了,看到这个薪资范围,我只想说我恨有钱人职业方向薪资范围工作内容软件测试工程师12-25k通过研究用户需求、行为和偏好,设计出易用、高效且令人愉悦的产品交互流程与界面提升产品的用户体验数据分析师10-20k运用算法对大量文本数据进行处理和分析,实现诸如机器翻译、智能客服、文本分类等自然语言处理任务。web前端工程师12-25k负责监控网络安全状况,检测并防范网络攻击、恶意软件入侵等安全威胁,制定和实施网络安全策略。云计算工程师10-25k专门为游戏设计用户界面,包括游戏主界面、操作界面、角色信息界面等,要确保界面风格与游戏整体风格一致。用户体验设计师15-30k通过研究用户需求...
牛客创作赏金赛
点赞
评论
收藏
分享
06-11 14:48
湖南大学 运营
腾讯收购喜马拉雅,花了90多亿人民币
昨天晚上,腾讯音乐娱乐集团发布公告,宣布与喜马拉雅签署并购协议。此次收购花了腾讯12.6亿美元现金+5.5%股权,约合人民币90.6亿元)。据说21年时腾讯收购喜马拉雅已经走到了最后一步,但是当时创始人兼CEO余建军突然反悔。四年之后,喜马拉雅最终还是被收购,只不过此时估值少了好多。不知道喜马拉雅的肠子是不是悔青了随后,喜马拉雅也发布了收购公告,称,“喜马拉雅将保持现有品牌不变、现有产品独立运营不变、核心管理团队不变、公司战略发展方向不变”。喜马拉雅联合创始人陈小雨、余建军说,与其单打独斗,不如共享资源、共同研发,把精力用在真正提升用户体验和创作者收益上,“携手,能让我们走得更远、更稳”。
点赞
评论
收藏
分享
05-27 01:51
湖南工学院 硬件开发
第一次写简历,求指教
学院大三,没有什么拿得出手的,也没有经验,想找一份实习工作!
我的简历长这样
点赞
评论
收藏
分享
06-06 16:41
武汉理工大学 嵌入式工程师
hr直接问我要pcb板子什么情况
啥意思
能干的三文鱼刷了100道题:
公司可能有弄嵌入式需要会画pcb的需求,而且pcb能快速直观看出一个人某方面的实力。看看是否有面试资格。问你问题也能ai出来,pcb这东西能作假概率不高
点赞
评论
收藏
分享
06-10 20:34
已编辑
蚌埠坦克学院 Java
研究生修炼手册(1)
小Z是只长相和能力都平平的鼠鼠,大学期间参加了acm程序设计竞赛实验室,虽然疯狂打铁,但是日子平和,同学友好,到了大四,受到同僚影响,决定参加考研,擦线过初试后竟然奇迹般地上岸了,小Z立志努力做出一番成就...(1)学术地狱进组前导师说,学术氛围很浓厚,大家都很认真,因为零基础,小Z暑假猛学机器学习和深度学习,结果开学进去发现只有自己一个人在学...导师和网上大多数导师一样,给个课题后啥也不管了,具体做啥还得自己找,每周开组会,第一次组会开了将近6个小时,小Z第一次感觉到了绝望,这些倒还好,真正操蛋的是,每次问问题,导师无非就是如下几种预制回答,“你再看看别的文献”,“你再调调参数”,“你看看...
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
春招失败准备转行了
2.3W
2
...
这些假国企都给我避雷!
1.5W
华为开奖进度👉
热聊中
3
...
27届腾讯一面,强度太大了..
8245
4
...
论双非大一的“暑期”能拿下大厂offer吗?
7232
5
...
代码拜拜!被烟草录取了✌
6987
6
...
牛友们,你们有多久没回家了?
6703
7
...
在西二旗上班真的没有一点活人感
5446
8
...
作为1名HR真是不吐不快
5051
9
...
去大厂实习了,感觉跟上高中没区别啊
4909
10
...
大厂实习后的一些反思与认知改变
4807
创作者周榜
更多
正在热议
更多
#
考研对你找工作产生了哪些影响?
#
6939次浏览
74人参与
#
摸鱼被leader发现了怎么办
#
57387次浏览
339人参与
#
聊聊这家公司值得去吗
#
241997次浏览
2254人参与
#
kpi面有什么特征
#
36860次浏览
267人参与
#
你认为哪个岗位找工作最卷
#
17872次浏览
76人参与
#
职场人,说说你的烦心事
#
9241次浏览
83人参与
#
打杂的实习你会去吗?
#
109589次浏览
956人参与
#
为了找工作你投递了多少公司?
#
13479次浏览
198人参与
#
机械只有读研才有出路吗?
#
20087次浏览
230人参与
#
职场上哪些事情令人讨厌
#
17013次浏览
86人参与
#
我发现一个规律
#
7776次浏览
69人参与
#
通信硬件知识分享
#
27737次浏览
482人参与
#
硬件开发岗知多少
#
11316次浏览
116人参与
#
工作中哪个瞬间让你想离职
#
24319次浏览
166人参与
#
没有合适的工作,你会先找个干着,还是考公考研
#
111834次浏览
1111人参与
#
你有哪些缓解焦虑的方法?
#
4542次浏览
148人参与
#
实习想申请秋招offer,能不能argue薪资
#
138836次浏览
885人参与
#
签约/解约注意事项
#
678020次浏览
4056人参与
#
秋招最大的收获是什么?
#
34333次浏览
302人参与
#
担心入职之后被发现很菜怎么办
#
127130次浏览
760人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务