聊一聊现在的 AI 岗位 - 从别再无脑堆关键词开始

#牛客AI配图神器#

引言

"学 AI 需要掌握什么技术?"——这个问题本身就有问题。

AI 岗位已经分化得很厉害了。2023 年你说"做 AI 的",大家默认你在训模型。2026 年你说"做 AI 的",你可能是在写 Agent 的工具调度逻辑、在搭 GPU 集群的推理服务、在优化 RAG 的检索链路、在做端侧模型的量化部署——这些岗位需要的技术栈重叠度可能不到 30%

笼统地说"学 Python、学 PyTorch、学 Transformer"就像说"做互联网要学编程"一样正确但没用。以下按四个主流方向拆,每个方向讲清楚:核心技能是什么、入门门槛在哪、学习路径怎么走、常见误区是什么

方向一:Agent 开发 / LLM 应用工程

这个方向在做什么:

把大模型的能力包装成可用的产品。不是训模型,而是用模型——做 RAG 系统、做 Agent、做对话系统、做代码辅助工具、做各种垂直场景的 AI 功能。目前市场需求量最大、增长最快的 AI 岗位方向。

核心技术栈:

语言

Python(必须)、TypeScript(强烈建议)

★★★★★

LLM 交互

各家 API 的使用(OpenAI / Anthropic / 开源模型)、Function Calling / Tool Use 机制、Prompt Engineering

★★★★★

RAG 全链路

文档解析、Chunking 策略、Embedding 模型、向量数据库(Pinecone / Milvus / Chroma 等)、检索与重排策略

★★★★★

Agent 框架

LangChain / LlamaIndex 了解原理即可,重点是能裸写 Agent 循环(ReAct / Plan-and-Execute)

★★★★

工程基础

FastAPI / Next.js、数据库(PostgreSQL)、消息队列、Docker

★★★★

协议与生态

MCP(Model Context Protocol)、Agent Skills、ACP(Agent Communication Protocol)

★★★

前端能力

React / Vue 基础,能做交互界面和 Streaming 展示

★★★

这个方向的真实门槛:

门槛不在"会不会调 API"——这个一天就能学会。真正的门槛在三个地方:

上下文工程能力。同一个模型,你给它什么上下文,效果天差地别。理解窗口管理、检索质量优化、prompt 结构设计,这些是看不见的"软技能"但决定了产品质量的 80%。

工程化能力。能跑通 Demo 和能上生产是两回事。错误处理、成本控制、可观测性、评测体系——这些"无聊"的工程工作才是这个岗位的核心价值。

对 LLM 局限性的理解。知道什么时候该用 Agent、什么时候不该用;知道 LLM 会在哪些场景下犯错;知道 Prompt Injection 的风险有多大。这种判断力比任何具体技术都重要。

学习路径建议:

  1. 先用裸 API 从零写一个最简单的 ReAct Agent——不用任何框架,直接调 API + 解析 Function Calling + 执行工具 + 拼上下文。跑通这个闭环,你对 Agent 的理解就超过了大部分只用框架的人
  2. 然后做一个有真实场景的 RAG 系统——不是对着教程在公共数据集上跑,而是找一个你真正需要的场景(比如对你的课程笔记做问答),在过程中你会自然遇到 chunking 的问题、检索质量的问题、窗口管理的问题
  3. 最后给你的 Agent 加上可观测性和评测——这步大部分人不做,但做了就是区分度

常见误区:

  • "我要先学 Transformer 原理才能做 LLM 应用"——不需要。你开车不需要先学造发动机。理解 Token、上下文窗口、Temperature 等概念就够了
  • "LangChain 是必学的"——LangChain 是工具不是知识。先理解原理再用框架,而不是反过来。先裸写,再上框架
  • "这个方向不需要前端"——需要。Agent 的用户体验(Streaming 展示、diff 预览、操作确认交互)很大程度取决于前端实现

方向二:AI Infra / 模型服务基础设施

这个方向在做什么:

让模型能高效、稳定、低成本地跑起来服务用户。包括推理引擎优化、模型部署、GPU 集群管理、请求调度、模型缓存、弹性伸缩等。如果说 Agent 开发是"用模型",AI Infra 就是"让模型能被用"。

核心技术栈:

语言

Python、C++(推理引擎层)、Go / Rust(服务层)

★★★★★

推理引擎

vLLM、TensorRT-LLM、ONNX Runtime、TGI(Text Generation Inference)

★★★★★

模型优化

量化(INT8/INT4/GPTQ/AWQ)、KV Cache 管理、投机采样(Speculative Decoding)、PagedAttention

★★★★★

系统基础

Linux 系统编程、网络编程、GPU 架构基础(CUDA 概念)、内存管理

★★★★★

容器与编排

Docker、Kubernetes、GPU 调度(如 NVIDIA GPU Operator)

★★★★

监控运维

Prometheus + Grafana、分布式追踪、GPU 利用率监控

★★★★

分布式系统

负载均衡、请求路由、多模型混部、弹性伸缩策略

★★★

这个方向的真实门槛:

门槛在系统层面的深度理解。这不是一个"学几个框架就能上手"的方向。你需要理解:一个推理请求从到达网关到返回结果,中间经过了哪些环节?每个环节的延迟瓶颈在哪?GPU 的显存是怎么分配的?KV Cache 为什么会成为长上下文场景的瓶颈?Batching 策略怎么影响吞吐和延迟的 trade-off?

这些问题的答案不在教程里,在论文和源码里。

学习路径建议:

  1. 先搞懂一个推理引擎的架构。推荐从 vLLM 入手——读它的架构文档、理解 PagedAttention 的原理、本地部署一个模型跑起来、观察不同 batch size 下的吞吐和延迟变化
  2. 做一次完整的模型部署——从模型下载 → 量化 → 部署到推理引擎 → 加负载均衡 → 加监控。这条链路走一遍,你就知道生产级部署和"python model.generate()"之间的差距有多大
  3. 深入一个优化点做到极致——比如量化对不同模型的精度影响、比如 KV Cache 的内存优化、比如请求调度策略的对比。在一个点上做深,比每个点都浅尝辄止有价值得多

常见误区:

  • "AI Infra 就是运维"——不是。这个方向的核心是性能优化和系统设计,需要深入理解模型推理的计算特性。纯运维背景转这个方向需要补大量底层知识
  • "会用 vLLM 就行了"——vLLM 是工具,不是知识。你需要理解它为什么这么设计,才能在它不够用的时候做出正确的判断和扩展

方向三:大模型算法 / 模型训练

这个方向在做什么:

训练和优化大语言模型本身。包括预训练、微调(SFT)、对齐(RLHF / DPO)、模型架构改进、数据工程等。这是最"学术"的方向,和前两个方向的技能树重叠最少。

核心技术栈:

基础

深度学习理论(必须扎实)、概率统计、线性代数、信息论

★★★★★

框架

PyTorch(必须精通)、DeepSpeed / Megatron-LM(分布式训练)

★★★★★

模型架构

Transformer 架构细节、各种 Attention 变体、位置编码方案、MoE

★★★★★

训练技术

SFT / RLHF / DPO / KTO 等对齐方法、LoRA / QLoRA 等高效微调、数据配比与清洗

★★★★★

数据工程

大规模数据处理、数据质量评估、合成数据生成

★★★★

评估

模型评估方法论(Benchmark 设计、人工评估、自动化评估)

★★★★

分布式

多机多卡训练、混合精度、梯度检查点、通信优化

★★★

这个方向的真实门槛:

门槛最高,也最明确——数学基础和研究能力。你需要能读懂顶会论文、理解公式推导、复现实验结果、提出改进方案。这不是"学了技术栈就能做"的方向,更接近于一个研究岗位。

另一个隐性门槛是算力获取。预训练和大规模微调需要大量 GPU 资源,个人很难承担。这意味着这个方向的实践机会高度集中在头部公司和实验室——如果你没有机构背景,入门的实操成本非常高。

学习路径建议:

  1. 数学基础必须过关。不是"看过"而是"能推导"的程度。重点是概率统计、优化理论、信息论
  2. 把 Transformer 的每一个组件彻底搞透——从零实现一个 mini GPT,在小数据集上训练。这个过程能让你对架构的理解从"知道有什么"变成"知道为什么"
  3. 找一个细分方向深入——数据质量、对齐方法、高效微调、评估方法论,选一个方向读 10 篇以上的相关论文,做实验复现和对比

常见误区:

  • "我跑过一次 LoRA 微调就算会训模型了"——LoRA 微调是模型训练的最浅层面。真正的模型训练岗需要你理解训练动态、loss 曲线分析、数据配比的影响、分布式训练的工程细节
  • "这个方向最有技术含量"——技术含量不等于市场需求。模型训练岗的绝对需求量远小于 Agent 开发和 AI Infra。选方向要同时考虑兴趣和市场

方向四:端侧 AI / 智能硬件

这个方向在做什么:

让 AI 模型跑在边缘设备上——手机、IoT 设备、机器人、汽车、AR/VR 眼镜等。核心挑战是在有限的算力、内存和功耗约束下,让模型跑得又快又准。

核心技术栈:

语言

C / C++(必须精通)、Python(工具链)、Rust(新项目越来越多)

★★★★★

模型压缩

量化(INT8/INT4/二值化)、剪枝、知识蒸馏、模型架构搜索(NAS)

★★★★★

推理框架

ONNX Runtime Mobile、TensorFlow Lite、Core ML、NCNN、MNN

★★★★★

硬件理解

ARM 架构、NPU/DSP 加速原理、内存带宽限制、功耗模型

★★★★

嵌入式开发

交叉编译、嵌入式 Linux、RTOS、性能 profiling 工具

★★★★

系统集成

音视频处理 pipeline、传感器融合、实时性要求

★★★

这个方向的真实门槛:

门槛在于同时懂 AI 和嵌入式系统的交叉能力。纯做 AI 的人不了解硬件约束,纯做嵌入式的人不了解模型特性。能把模型的计算特点和硬件的能力限制对齐、找到最优的部署方案——这是这个方向最稀缺的能力。

常见误区:

  • "端侧 AI 就是把模型压缩一下部署上去"——压缩只是第一步。真正的挑战在于整个推理 pipeline 的端到端优化:内存调度、算子融合、异构计算(CPU + GPU + NPU 混合)、实时性保证
  • "大模型时代端侧 AI 不重要了"——恰恰相反。隐私需求、网络延迟、离线可用性这些硬约束确保了端侧 AI 的长期需求。而且端侧跑 SLM(Small Language Model)正在成为新趋势

跨方向通用能力:不管做哪个方向都需要的

写在最后,有几个能力是不分方向的:

工程基础:Git 工作流、代码可读性、测试意识、文档习惯。这些在任何技术岗都是基本功,但很多 AI 方向的同学因为"跑通实验就行"的习惯而忽视了。

系统思维:不是只盯着自己负责的模块,而是理解整个系统的数据流和依赖关系。改了一个组件,知道会影响哪些上下游。

学习速度:AI 领域的技术栈更新速度远超其他方向。2024 年的最佳实践到 2026 年可能已经过时了。比起"现在会什么","能多快学会新东西"才是长期竞争力。

表达能力:能把技术决策讲清楚——为什么选这个方案、取舍是什么、效果如何。这个能力在面试中直接决定了你能不能通过,在工作中直接决定了你的方案能不能推动落地。

一张图看四个方向的技能差异

                    AI 岗位技术栈全景

         Agent 开发          AI Infra
        ┌──────────┐      ┌──────────┐
        │ Python/TS │      │ C++/Go   │
        │ RAG 全链路 │      │ 推理引擎  │
        │ Prompt 工程│      │ GPU 调度  │
        │ MCP/Skills│      │ 量化部署  │
        │ 前端能力   │      │ 分布式系统│
        └────┬─────┘      └────┬─────┘
             │                  │
             │    ┌────────┐    │
             └────┤ 通用   ├────┘
                  │ 基础   │
             ┌────┤        ├────┐
             │    │Git/Linux│    │
             │    │系统思维  │    │
             │    │学习能力  │    │
             │    └────────┘    │
        ┌────┴─────┐      ┌────┴─────┐
        │ PyTorch  │      │ C/C++   │
        │ 训练框架  │      │ 模型压缩  │
        │ 数学基础  │      │ 嵌入式   │
        │ 论文复现  │      │ 硬件理解  │
        │ 数据工程  │      │ 实时系统  │
        └──────────┘      └──────────┘
         模型算法            端侧 AI

选方向的建议

别问"哪个方向最好",问"哪个方向和我的基础最匹配、和我的兴趣最契合"。

  • 你喜欢做产品、让东西跑起来被人用 → Agent 开发
  • 你喜欢做系统、压榨每一毫秒的性能 → AI Infra
  • 你喜欢做研究、推公式看论文 → 模型算法
  • 你喜欢和硬件打交道、在约束下做优化 → 端侧 AI

无论选哪个方向,有一点是共通的:在一个方向上做到能经受追问的深度,比四个方向都浅尝辄止有价值一百倍。

我们团队在 Agent 开发和 AI Infra 方向都有大量坑位,欢迎前端/后端/算法投递,校招实习社招都招。做的事情就是上面写的这些——不是画饼,是每天在写的代码。简历直投:[yangziao.yza@taobao.com]

#找AI工作可以去哪些公司?##AI时代,哪个岗位还有“活路”##AI求职记录##从事AI岗需要掌握哪些技术栈?#
全部评论

相关推荐

03-19 09:58
河海大学 Java
最喜欢春天的奇亚籽很...:同学,是小红书不是小哄书,一眼就能看到的错误
投了多少份简历才上岸
点赞 评论 收藏
分享
还是有一点点不甘心吧,但是人生的旅程从来都不会一帆风顺,虽然这次的结果并不理想,但我一定会做得更好的。在这里分享一下我的整个秋招和华为的流程,希望我的经验能帮到后来的同学,也与诸君一同共勉!首先,自我介绍一下,我是南航的本科,电子信息工程专业,毕业后去了南洋理工读硕士,也是通信工程。在新加坡的一家半导体公司-瑞昱新加坡分部,做过嵌入式软开实习生,学校里的毕业论文课题和深度学习+通信算法有关。因为研究课题的原因,我投递的是上海无线网络产品线的AI软件开发岗位,总的流程就像图一一样。9 月份联系的接头人老师推简历,在推之前说我这个简历很对口,笔试过了面试不太会有什么问题。笔试大约是在11月初左右的样子,第一次笔试,刷力扣准备了挺久。分数线是提前告知了的,AI卷500分总分,180过线,选择题50分,第一道编程150分,第二道编程300分。我当时就冲着过线去准备的,所以战术就很简单了,撕出第一道编程题,选择题大概写一下,第二道给了。这样刚好过线笔试过了之后,因为今年政策的原因,新加坡留子不能线上面试,我12.26参加的线下集中面试。总体面试过程也是很顺利,3个小时三轮面试就过去了,前两轮技术面的手撕代码在提示下也撕得差不多,AI相关专业问题问的不算太难(感觉面试官老师都是计科出身可能AI相关的知识他们也是在这几年才开始学习研究)。主管面主要考察态度,思路和志向,大概聊了一个点就给过了,总体来说不一定高分但是还是很顺利。然后就是漫长的泡池子环节,其中心态也逐步地转变,还在接头人老师一直都有联系,但是也明显地能感觉到希望越来越渺茫,今天聊了之后,没有开出来的希望,决定再做打算了。给后来的同学几条建议:1、秋招之前最好去刷一段国内的垂类实习,我在国外实习的经历国内认可度并不太高,(虽然真的是不错的厂也认真做了项目2、提前刷代码,早过笔试,早去面试,早锁定3、海投,曾经的我太心高气傲,总幻想我能精准爆破,但是这些东西并非一个人能把握,增大机会才是正确的选择
秋招,不懂就问
点赞 评论 收藏
分享
03-24 17:57
门头沟学院 Java
yakuso:你这头像哈哈哈
点赞 评论 收藏
分享
评论
2
4
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务