大数据岗位选择(小白向)

楼主是23届985本(末流)科,专业是“数据科学与大数据技术”,学了几年说实话一点都没明白毕业了到底能做什么岗位。去年也是这个时候着急忙慌的春招找暑期实习,可是实际上连能做什么岗位都不知道,就直接在招聘官网搜“数据”,然后看到了大数据开发工程师。

实际上我压根不了解具体的工作内容,面试中也因此吃了很多亏。现在经过了史上最冷的”寒冬“,也有一定的实习经历,给大家伙简单说说我了解到的”数据“相关的岗位,一方面有利于大家根据自身情况选择方向,另一方面也可以在面试中避免信息差

技术向

一般的企业招聘岗位在大数据相关的岗位都是直接称为”大数据开发工程师“(但是不同的公司也会有区别,例如阿里的是:数据研发,腾讯的是:数据工程),这里面实际会包含到以下提到的多个不同方向岗位,需要大家在面试的时候和面试官确认(之前我在面试京东,面试官是大数据平台开发的直接给我问蒙蔽了),或者也可以通过JD来判断是否是自己的目标岗位

1.数仓开发

数仓开发分离线和实时,大数据开发中最常见的岗位,也是目前相对而言hc数量最多的岗位。楼主现在也是属于这个岗位。数仓开发是一个技术性和业务性结合的岗位,需要在会技术的同时有业务的敏感度,因为大部分时候数仓的需求都需要深入的去了解业务。

数仓开发的日常工作总结一下就是:

  • 熟悉业务逻辑;
  • 使用大数据组件;
  • 分层建模。

需要的技能大概是:

  • SQL;
  • 数仓建模;
  • 离线的话 Hive、Spark 的原理以及调优,数据倾斜处理;
  • 实时的话 Flink 的原理;
  • MapReduce 原理。
  • 对业务敏感。

简单来说就是 SQL boy

2.大数据平台开发

公司一般都要给数据研发同学提供一站式数据开发平台。比如操作 Hive 或者 HDFS,是在开源的组件里那种难用的黑框框里写 SQL 或者 Shell 脚本吗?No!公司都有一站式数据开发平台,具体内容是:

  • 开发数据研发同学需要的开发工具,统一的前端页面,可以对 SQL 进行语法校验、格式化代码等功能,让数仓的同学开发更轻松;
  • 能够可视化 CPU、内存等资源的使用情况。
  • 开发数据可视化的工具(BI 工具)。

需要的技能大概是:

  • Java、Scala 语言,包括 JVM、类装载、线程、并发、IO资源管理、网络 ;
  • 微服务架构;
  • Web 后端技术栈;
  • 熟悉数仓开发流程(知道数仓开发的同学要用到什么,才能开发出好的一站式开发套件);
  • 熟悉 hadoop / flink / spark 等。

类似于 Java 后端开发。但是同时也需要非常了解大数据组件的底层原理,面试中会兼顾大数据与后端开发的内容

在企业招聘中也可能会单独招聘”大数据平台开发“或”JAVA开发(大数据)“。

3.基础组件开发

大公司一般不会把开源框架直接来使用,一般是会二次开发,实现一些定制化功能,比如

  • 把 ClickHouse 魔改一下突破性能瓶颈;
  • 对 Flink 二次开发优化;
  • 开发新的大数据存储系统、查询系统。

上面只是举例,具体就不一一枚举了,需要的技能大概是:

  • 熟悉 Flink、Spark 等一种或多种大数据组件的原理和源码;
  • Java、Scala、C++ 等编程语言要熟练;
  • 存储系统经验等;
  • 设计模式。

可能类似于 java 中间件开发?或者基础设施开发。

4.数据测试

数仓开发的 SQL 也是有 测试人员写 case 测试的,测试完才能上线。要求和数仓开发差不多,但要会测试相关的知识。这也是我认为未来有扩张趋势的岗位

PS:在以上的岗位中,从个人角度来看数仓目前的就业情况较好,因为现在在平台和组件开发中各个公司基本都完成了,平台开发的同学大部分时候是类似于运维的功能。但是,从职业前景而言,大数据平台开发跨后端开发以及数仓,应对行业风险的能力更强。

业务向

业务向的岗位我了解不多只做简单描述。

1.数据分析师

数据分析师在互联网公司中会分为两种,一是传统的数分,二是我们称为商业数据分析(商分),二者的工作内容相差不大,但是商分的一般会直接向大老板汇报。

数分会较多考察数学能力和一些分析归因的能力。当然还有一些分析工具的使用,从Python到Excel,不同的职位有不同的要求。岗位数量很多,无论大公司还是小公司,都有相关岗位。更加适合不喜欢写代码,但又想从事数据相关工作的同学。但是目前在互联网公司里,数分卷的程度不亚于产品,基本都是985硕+大厂实习,对业务的敏感性也要求比较高

日常工作:

  • 看大盘数据
  • 和数仓掰扯数据异常问题
  • 写分析报告给老板汇报(PPT)

2.数据产品

目前数据产品也是大数据领域内较新的一个岗位,看名字也知道主要的职能类似于产品经理,只不过主要是服务于数据方面的,包括数据服务、数据应用等工具的产品设计

日常工作:

数据产品经理的日常工作主要包括以下几个方面:

  • 产品规划和设计:负责整个数据产品的规划和设计
  • 需求调研和分析:通过市场调研、用户反馈等方式(其实主要是数仓的使用反馈)
  • 产品开发和管理:负责整个数据产品的开发和管理工作,
  • 产品营销和推广:负责数据产品的推广和营销

胡思乱想

最后分享以下个人的一些看法:

岗位的选择主要是个人喜好和自身能力的综合考虑,有人喜欢做业务,有人喜欢做基础架构。如果抛开个人喜好:

业务:

  • 好的地方在于比较实际,更贴近一线,后期发展更好点(领导大多是做业务技术出身的)。
  • 不好的地方在于要看运气,如果碰上快速发展的业务,能够快速成长。如果业务不咋地,可能就进步缓慢。

基础:

  • 好的地方在于技术方面的成长比较快。
  • 不好的地方在于后期发展受限,如果没有技术上特牛逼,可能就是个高级别员工了。

这些只是我基于我们部门观察的结果,可能不同部门不同公司情况就很大不同,仅供参考。

PS:因为我也是从小白入门,经过春招找暑期实习,秋招各种面试的过程,基本上能踩的坑都踩了个遍,中间的痛苦与迷茫都不说了,希望我写的这点东西能帮到大家吧。

全部评论
学长,我是双非硕大数据技术栈学的差不多了,现在很多人说大数据已死,我怕走大数据的方向因为学历不够简历直接刷了,我现在纠结要不要转测开,学长给一点建议
5 回复 分享
发布于 2023-03-12 20:28 浙江
谢谢
4 回复 分享
发布于 2023-03-06 23:58 四川
求拉
2 回复 分享
发布于 2023-06-20 20:59 安徽
谢谢大佬的分享,双非本科大数据专业是不是不好找数据岗的工作啊😭
2 回复 分享
发布于 2023-04-05 16:06 广西
我也想进
2 回复 分享
发布于 2023-03-21 14:35 河南
2 回复 分享
发布于 2023-03-13 01:11 北京
想进群
2 回复 分享
发布于 2023-03-07 23:55 北京
大佬求拉
1 回复 分享
发布于 2023-10-29 00:43 云南
佬,求拉
1 回复 分享
发布于 2023-10-13 11:21 湖南
学长 双非本科走数仓好嘛
1 回复 分享
发布于 2023-08-31 11:47 贵州
**** 是不是太晚了
1 回复 分享
发布于 2023-08-28 10:18 湖北
求拉
1 回复 分享
发布于 2023-08-23 10:31 浙江
求拉
1 回复 分享
发布于 2023-08-18 10:31 北京
*** 大佬
1 回复 分享
发布于 2023-07-11 19:24 广东
我也想进
1 回复 分享
发布于 2023-06-30 23:20 云南
大佬,求捞
1 回复 分享
发布于 2023-06-30 10:18 湖北
双非本科能走大数据吗,我本科学了这个,在纠结走哪了
1 回复 分享
发布于 2023-06-25 12:59 四川
数仓开发这个需不需要对接业务方的呀,要和业务方沟通的吗?感觉沟通能力有点欠缺😅
1 回复 分享
发布于 2023-06-05 17:43 广东
求拉
1 回复 分享
发布于 2023-06-02 16:34 湖北
求进群
1 回复 分享
发布于 2023-06-01 22:48 江苏

相关推荐

头像
04-30 16:32
已编辑
河海大学 Java
#腾讯云智研发2025实习生招聘# #牛客AI配图神器# #腾讯云智# #牛客在线求职答疑中心# 感觉自己语速还是太快了,好几次还打断了面试官的话QAQ,要注意改进不愧是数据部,问了好多数据优化,文件写入相关的东西,也算答个七七八八无八股无手撕 感觉有点希望哈?许愿许愿后续闲聊:1.你是Java是吧,我们业务和数据相关与深度学习相关的,主语言Python能接受么?2.学校在哪?老家在哪?(跟上次面试官一样)3.实习大概能多久,时长几个月呢?你们不要求课程嘛?反问1.大概多久消息? 后续HR反馈,多关注系统2.python基础要求样? 不要求,我们提倡看得懂的,不与要花里胡哨,最简单的语法就好了3.numpy之类的python类库需要学习么? 看你个人时间,时间充足就学学,入职之后再学也没问题,看重一个快速学习能力项目拷打:(基本都和我的项目相关):1.自我介绍2.小米训练营是个啥?3.说说你的项目叭4.Langchain本身功能就很齐全了,那么你做了什么功能呢?5.怎么实现的智能调用?6.MCP技术了解过么?有了MCP还需要这个FunctionCall么?7.RAG是你搭建的还是直接调用框架本身?(这个面试官是真的懂)8.还有了解过其他框架么9.你为什么用Zset实现对话记忆功能的?10.id怎么设计的?雪花算法的优缺点?11.其他的主键设计呢?自增有什么好处?分布式id有什么好处?12.有没有尝试结合业务场景?13.manus了解过?你觉得怎么样?14.网盘文件存在哪里?有了解过云存储么?15.你觉得有亮点的技术?RandomAccessFile(面试官说还可以,算一个亮点)16.大文件的写入还有什么可优化的点?17.内存映射技术,零拷贝?18.经典数据一致性问题?19.canal的话怎么解决?这样不会有缓存一致性嘛?20.写redis的时候redis挂了怎么办?21.普通的双写结合spring的事务,也可以保证事务啊?和canal有什么区别呢?22.让你设计一个RAG你要怎么做?23.让你设计一个向量数据库,一亿个数据,你会怎么加速检索的速度?后续:4.14进入HR阶段4.30 oc
查看86道真题和解析 牛客在线求职答疑中心
点赞 评论 收藏
分享
评论
104
316
分享

创作者周榜

更多
牛客网
牛客企业服务