聊一聊现在的 AI 岗位 - 从别再无脑堆关键词开始
#牛客AI配图神器#
引言
"学 AI 需要掌握什么技术?"——这个问题本身就有问题。
AI 岗位已经分化得很厉害了。2023 年你说"做 AI 的",大家默认你在训模型。2026 年你说"做 AI 的",你可能是在写 Agent 的工具调度逻辑、在搭 GPU 集群的推理服务、在优化 RAG 的检索链路、在做端侧模型的量化部署——这些岗位需要的技术栈重叠度可能不到 30%。
笼统地说"学 Python、学 PyTorch、学 Transformer"就像说"做互联网要学编程"一样正确但没用。以下按四个主流方向拆,每个方向讲清楚:核心技能是什么、入门门槛在哪、学习路径怎么走、常见误区是什么。
方向一:Agent 开发 / LLM 应用工程
这个方向在做什么:
把大模型的能力包装成可用的产品。不是训模型,而是用模型——做 RAG 系统、做 Agent、做对话系统、做代码辅助工具、做各种垂直场景的 AI 功能。目前市场需求量最大、增长最快的 AI 岗位方向。
核心技术栈:
语言 | Python(必须)、TypeScript(强烈建议) | ★★★★★ |
LLM 交互 | 各家 API 的使用(OpenAI / Anthropic / 开源模型)、Function Calling / Tool Use 机制、Prompt Engineering | ★★★★★ |
RAG 全链路 | 文档解析、Chunking 策略、Embedding 模型、向量数据库(Pinecone / Milvus / Chroma 等)、检索与重排策略 | ★★★★★ |
Agent 框架 | LangChain / LlamaIndex 了解原理即可,重点是能裸写 Agent 循环(ReAct / Plan-and-Execute) | ★★★★ |
工程基础 | FastAPI / Next.js、数据库(PostgreSQL)、消息队列、Docker | ★★★★ |
协议与生态 | MCP(Model Context Protocol)、Agent Skills、ACP(Agent Communication Protocol) | ★★★ |
前端能力 | React / Vue 基础,能做交互界面和 Streaming 展示 | ★★★ |
这个方向的真实门槛:
门槛不在"会不会调 API"——这个一天就能学会。真正的门槛在三个地方:
上下文工程能力。同一个模型,你给它什么上下文,效果天差地别。理解窗口管理、检索质量优化、prompt 结构设计,这些是看不见的"软技能"但决定了产品质量的 80%。
工程化能力。能跑通 Demo 和能上生产是两回事。错误处理、成本控制、可观测性、评测体系——这些"无聊"的工程工作才是这个岗位的核心价值。
对 LLM 局限性的理解。知道什么时候该用 Agent、什么时候不该用;知道 LLM 会在哪些场景下犯错;知道 Prompt Injection 的风险有多大。这种判断力比任何具体技术都重要。
学习路径建议:
- 先用裸 API 从零写一个最简单的 ReAct Agent——不用任何框架,直接调 API + 解析 Function Calling + 执行工具 + 拼上下文。跑通这个闭环,你对 Agent 的理解就超过了大部分只用框架的人
- 然后做一个有真实场景的 RAG 系统——不是对着教程在公共数据集上跑,而是找一个你真正需要的场景(比如对你的课程笔记做问答),在过程中你会自然遇到 chunking 的问题、检索质量的问题、窗口管理的问题
- 最后给你的 Agent 加上可观测性和评测——这步大部分人不做,但做了就是区分度
常见误区:
- "我要先学 Transformer 原理才能做 LLM 应用"——不需要。你开车不需要先学造发动机。理解 Token、上下文窗口、Temperature 等概念就够了
- "LangChain 是必学的"——LangChain 是工具不是知识。先理解原理再用框架,而不是反过来。先裸写,再上框架
- "这个方向不需要前端"——需要。Agent 的用户体验(Streaming 展示、diff 预览、操作确认交互)很大程度取决于前端实现
方向二:AI Infra / 模型服务基础设施
这个方向在做什么:
让模型能高效、稳定、低成本地跑起来服务用户。包括推理引擎优化、模型部署、GPU 集群管理、请求调度、模型缓存、弹性伸缩等。如果说 Agent 开发是"用模型",AI Infra 就是"让模型能被用"。
核心技术栈:
语言 | Python、C++(推理引擎层)、Go / Rust(服务层) | ★★★★★ |
推理引擎 | vLLM、TensorRT-LLM、ONNX Runtime、TGI(Text Generation Inference) | ★★★★★ |
模型优化 | 量化(INT8/INT4/GPTQ/AWQ)、KV Cache 管理、投机采样(Speculative Decoding)、PagedAttention | ★★★★★ |
系统基础 | Linux 系统编程、网络编程、GPU 架构基础(CUDA 概念)、内存管理 | ★★★★★ |
容器与编排 | Docker、Kubernetes、GPU 调度(如 NVIDIA GPU Operator) | ★★★★ |
监控运维 | Prometheus + Grafana、分布式追踪、GPU 利用率监控 | ★★★★ |
分布式系统 | 负载均衡、请求路由、多模型混部、弹性伸缩策略 | ★★★ |
这个方向的真实门槛:
门槛在系统层面的深度理解。这不是一个"学几个框架就能上手"的方向。你需要理解:一个推理请求从到达网关到返回结果,中间经过了哪些环节?每个环节的延迟瓶颈在哪?GPU 的显存是怎么分配的?KV Cache 为什么会成为长上下文场景的瓶颈?Batching 策略怎么影响吞吐和延迟的 trade-off?
这些问题的答案不在教程里,在论文和源码里。
学习路径建议:
- 先搞懂一个推理引擎的架构。推荐从 vLLM 入手——读它的架构文档、理解 PagedAttention 的原理、本地部署一个模型跑起来、观察不同 batch size 下的吞吐和延迟变化
- 做一次完整的模型部署——从模型下载 → 量化 → 部署到推理引擎 → 加负载均衡 → 加监控。这条链路走一遍,你就知道生产级部署和"python model.generate()"之间的差距有多大
- 深入一个优化点做到极致——比如量化对不同模型的精度影响、比如 KV Cache 的内存优化、比如请求调度策略的对比。在一个点上做深,比每个点都浅尝辄止有价值得多
常见误区:
- "AI Infra 就是运维"——不是。这个方向的核心是性能优化和系统设计,需要深入理解模型推理的计算特性。纯运维背景转这个方向需要补大量底层知识
- "会用 vLLM 就行了"——vLLM 是工具,不是知识。你需要理解它为什么这么设计,才能在它不够用的时候做出正确的判断和扩展
方向三:大模型算法 / 模型训练
这个方向在做什么:
训练和优化大语言模型本身。包括预训练、微调(SFT)、对齐(RLHF / DPO)、模型架构改进、数据工程等。这是最"学术"的方向,和前两个方向的技能树重叠最少。
核心技术栈:
基础 | 深度学习理论(必须扎实)、概率统计、线性代数、信息论 | ★★★★★ |
框架 | PyTorch(必须精通)、DeepSpeed / Megatron-LM(分布式训练) | ★★★★★ |
模型架构 | Transformer 架构细节、各种 Attention 变体、位置编码方案、MoE | ★★★★★ |
训练技术 | SFT / RLHF / DPO / KTO 等对齐方法、LoRA / QLoRA 等高效微调、数据配比与清洗 | ★★★★★ |
数据工程 | 大规模数据处理、数据质量评估、合成数据生成 | ★★★★ |
评估 | 模型评估方法论(Benchmark 设计、人工评估、自动化评估) | ★★★★ |
分布式 | 多机多卡训练、混合精度、梯度检查点、通信优化 | ★★★ |
这个方向的真实门槛:
门槛最高,也最明确——数学基础和研究能力。你需要能读懂顶会论文、理解公式推导、复现实验结果、提出改进方案。这不是"学了技术栈就能做"的方向,更接近于一个研究岗位。
另一个隐性门槛是算力获取。预训练和大规模微调需要大量 GPU 资源,个人很难承担。这意味着这个方向的实践机会高度集中在头部公司和实验室——如果你没有机构背景,入门的实操成本非常高。
学习路径建议:
- 数学基础必须过关。不是"看过"而是"能推导"的程度。重点是概率统计、优化理论、信息论
- 把 Transformer 的每一个组件彻底搞透——从零实现一个 mini GPT,在小数据集上训练。这个过程能让你对架构的理解从"知道有什么"变成"知道为什么"
- 找一个细分方向深入——数据质量、对齐方法、高效微调、评估方法论,选一个方向读 10 篇以上的相关论文,做实验复现和对比
常见误区:
- "我跑过一次 LoRA 微调就算会训模型了"——LoRA 微调是模型训练的最浅层面。真正的模型训练岗需要你理解训练动态、loss 曲线分析、数据配比的影响、分布式训练的工程细节
- "这个方向最有技术含量"——技术含量不等于市场需求。模型训练岗的绝对需求量远小于 Agent 开发和 AI Infra。选方向要同时考虑兴趣和市场
方向四:端侧 AI / 智能硬件
这个方向在做什么:
让 AI 模型跑在边缘设备上——手机、IoT 设备、机器人、汽车、AR/VR 眼镜等。核心挑战是在有限的算力、内存和功耗约束下,让模型跑得又快又准。
核心技术栈:
语言 | C / C++(必须精通)、Python(工具链)、Rust(新项目越来越多) | ★★★★★ |
模型压缩 | 量化(INT8/INT4/二值化)、剪枝、知识蒸馏、模型架构搜索(NAS) | ★★★★★ |
推理框架 | ONNX Runtime Mobile、TensorFlow Lite、Core ML、NCNN、MNN | ★★★★★ |
硬件理解 | ARM 架构、NPU/DSP 加速原理、内存带宽限制、功耗模型 | ★★★★ |
嵌入式开发 | 交叉编译、嵌入式 Linux、RTOS、性能 profiling 工具 | ★★★★ |
系统集成 | 音视频处理 pipeline、传感器融合、实时性要求 | ★★★ |
这个方向的真实门槛:
门槛在于同时懂 AI 和嵌入式系统的交叉能力。纯做 AI 的人不了解硬件约束,纯做嵌入式的人不了解模型特性。能把模型的计算特点和硬件的能力限制对齐、找到最优的部署方案——这是这个方向最稀缺的能力。
常见误区:
- "端侧 AI 就是把模型压缩一下部署上去"——压缩只是第一步。真正的挑战在于整个推理 pipeline 的端到端优化:内存调度、算子融合、异构计算(CPU + GPU + NPU 混合)、实时性保证
- "大模型时代端侧 AI 不重要了"——恰恰相反。隐私需求、网络延迟、离线可用性这些硬约束确保了端侧 AI 的长期需求。而且端侧跑 SLM(Small Language Model)正在成为新趋势
跨方向通用能力:不管做哪个方向都需要的
写在最后,有几个能力是不分方向的:
工程基础:Git 工作流、代码可读性、测试意识、文档习惯。这些在任何技术岗都是基本功,但很多 AI 方向的同学因为"跑通实验就行"的习惯而忽视了。
系统思维:不是只盯着自己负责的模块,而是理解整个系统的数据流和依赖关系。改了一个组件,知道会影响哪些上下游。
学习速度:AI 领域的技术栈更新速度远超其他方向。2024 年的最佳实践到 2026 年可能已经过时了。比起"现在会什么","能多快学会新东西"才是长期竞争力。
表达能力:能把技术决策讲清楚——为什么选这个方案、取舍是什么、效果如何。这个能力在面试中直接决定了你能不能通过,在工作中直接决定了你的方案能不能推动落地。
一张图看四个方向的技能差异
AI 岗位技术栈全景
Agent 开发 AI Infra
┌──────────┐ ┌──────────┐
│ Python/TS │ │ C++/Go │
│ RAG 全链路 │ │ 推理引擎 │
│ Prompt 工程│ │ GPU 调度 │
│ MCP/Skills│ │ 量化部署 │
│ 前端能力 │ │ 分布式系统│
└────┬─────┘ └────┬─────┘
│ │
│ ┌────────┐ │
└────┤ 通用 ├────┘
│ 基础 │
┌────┤ ├────┐
│ │Git/Linux│ │
│ │系统思维 │ │
│ │学习能力 │ │
│ └────────┘ │
┌────┴─────┐ ┌────┴─────┐
│ PyTorch │ │ C/C++ │
│ 训练框架 │ │ 模型压缩 │
│ 数学基础 │ │ 嵌入式 │
│ 论文复现 │ │ 硬件理解 │
│ 数据工程 │ │ 实时系统 │
└──────────┘ └──────────┘
模型算法 端侧 AI
选方向的建议
别问"哪个方向最好",问"哪个方向和我的基础最匹配、和我的兴趣最契合"。
- 你喜欢做产品、让东西跑起来被人用 → Agent 开发
- 你喜欢做系统、压榨每一毫秒的性能 → AI Infra
- 你喜欢做研究、推公式看论文 → 模型算法
- 你喜欢和硬件打交道、在约束下做优化 → 端侧 AI
无论选哪个方向,有一点是共通的:在一个方向上做到能经受追问的深度,比四个方向都浅尝辄止有价值一百倍。
我们团队在 Agent 开发和 AI Infra 方向都有大量坑位,欢迎前端/后端/算法投递,校招实习社招都招。做的事情就是上面写的这些——不是画饼,是每天在写的代码。简历直投:[yangziao.yza@taobao.com]
#找AI工作可以去哪些公司?##AI时代,哪个岗位还有“活路”##AI求职记录##从事AI岗需要掌握哪些技术栈?#
