03-26 10:38 阿里巴巴_淘宝_前端

发布于浙江

关注

聊一聊现在的 AI 岗位 - 从别再无脑堆关键词开始

#牛客AI配图神器#

引言

"学 AI 需要掌握什么技术？"——这个问题本身就有问题。

AI 岗位已经分化得很厉害了。2023 年你说"做 AI 的"，大家默认你在训模型。2026 年你说"做 AI 的"，你可能是在写 Agent 的工具调度逻辑、在搭 GPU 集群的推理服务、在优化 RAG 的检索链路、在做端侧模型的量化部署——这些岗位需要的技术栈重叠度可能不到 30%。

笼统地说"学 Python、学 PyTorch、学 Transformer"就像说"做互联网要学编程"一样正确但没用。以下按四个主流方向拆，每个方向讲清楚：核心技能是什么、入门门槛在哪、学习路径怎么走、常见误区是什么。

方向一：Agent 开发 / LLM 应用工程

这个方向在做什么：

把大模型的能力包装成可用的产品。不是训模型，而是用模型——做 RAG 系统、做 Agent、做对话系统、做代码辅助工具、做各种垂直场景的 AI 功能。目前市场需求量最大、增长最快的 AI 岗位方向。

核心技术栈：

语言	Python（必须）、TypeScript（强烈建议）	★★★★★
LLM 交互	各家 API 的使用（OpenAI / Anthropic / 开源模型）、Function Calling / Tool Use 机制、Prompt Engineering	★★★★★
RAG 全链路	文档解析、Chunking 策略、Embedding 模型、向量数据库（Pinecone / Milvus / Chroma 等）、检索与重排策略	★★★★★
Agent 框架	LangChain / LlamaIndex 了解原理即可，重点是能裸写 Agent 循环（ReAct / Plan-and-Execute）	★★★★
工程基础	FastAPI / Next.js、数据库（PostgreSQL）、消息队列、Docker	★★★★
协议与生态	MCP（Model Context Protocol）、Agent Skills、ACP（Agent Communication Protocol）	★★★
前端能力	React / Vue 基础，能做交互界面和 Streaming 展示	★★★

这个方向的真实门槛：

门槛不在"会不会调 API"——这个一天就能学会。真正的门槛在三个地方：

上下文工程能力。同一个模型，你给它什么上下文，效果天差地别。理解窗口管理、检索质量优化、prompt 结构设计，这些是看不见的"软技能"但决定了产品质量的 80%。

工程化能力。能跑通 Demo 和能上生产是两回事。错误处理、成本控制、可观测性、评测体系——这些"无聊"的工程工作才是这个岗位的核心价值。

对 LLM 局限性的理解。知道什么时候该用 Agent、什么时候不该用；知道 LLM 会在哪些场景下犯错；知道 Prompt Injection 的风险有多大。这种判断力比任何具体技术都重要。

学习路径建议：

先用裸 API 从零写一个最简单的 ReAct Agent——不用任何框架，直接调 API + 解析 Function Calling + 执行工具 + 拼上下文。跑通这个闭环，你对 Agent 的理解就超过了大部分只用框架的人
然后做一个有真实场景的 RAG 系统——不是对着教程在公共数据集上跑，而是找一个你真正需要的场景（比如对你的课程笔记做问答），在过程中你会自然遇到 chunking 的问题、检索质量的问题、窗口管理的问题
最后给你的 Agent 加上可观测性和评测——这步大部分人不做，但做了就是区分度

常见误区：

"我要先学 Transformer 原理才能做 LLM 应用"——不需要。你开车不需要先学造发动机。理解 Token、上下文窗口、Temperature 等概念就够了
"LangChain 是必学的"——LangChain 是工具不是知识。先理解原理再用框架，而不是反过来。先裸写，再上框架
"这个方向不需要前端"——需要。Agent 的用户体验（Streaming 展示、diff 预览、操作确认交互）很大程度取决于前端实现

方向二：AI Infra / 模型服务基础设施

这个方向在做什么：

让模型能高效、稳定、低成本地跑起来服务用户。包括推理引擎优化、模型部署、GPU 集群管理、请求调度、模型缓存、弹性伸缩等。如果说 Agent 开发是"用模型"，AI Infra 就是"让模型能被用"。

核心技术栈：

语言	Python、C++（推理引擎层）、Go / Rust（服务层）	★★★★★
推理引擎	vLLM、TensorRT-LLM、ONNX Runtime、TGI（Text Generation Inference）	★★★★★
模型优化	量化（INT8/INT4/GPTQ/AWQ）、KV Cache 管理、投机采样（Speculative Decoding）、PagedAttention	★★★★★
系统基础	Linux 系统编程、网络编程、GPU 架构基础（CUDA 概念）、内存管理	★★★★★
容器与编排	Docker、Kubernetes、GPU 调度（如 NVIDIA GPU Operator）	★★★★
监控运维	Prometheus + Grafana、分布式追踪、GPU 利用率监控	★★★★
分布式系统	负载均衡、请求路由、多模型混部、弹性伸缩策略	★★★

这个方向的真实门槛：

门槛在系统层面的深度理解。这不是一个"学几个框架就能上手"的方向。你需要理解：一个推理请求从到达网关到返回结果，中间经过了哪些环节？每个环节的延迟瓶颈在哪？GPU 的显存是怎么分配的？KV Cache 为什么会成为长上下文场景的瓶颈？Batching 策略怎么影响吞吐和延迟的 trade-off？

这些问题的答案不在教程里，在论文和源码里。

学习路径建议：

先搞懂一个推理引擎的架构。推荐从 vLLM 入手——读它的架构文档、理解 PagedAttention 的原理、本地部署一个模型跑起来、观察不同 batch size 下的吞吐和延迟变化
做一次完整的模型部署——从模型下载 → 量化 → 部署到推理引擎 → 加负载均衡 → 加监控。这条链路走一遍，你就知道生产级部署和"python model.generate()"之间的差距有多大
深入一个优化点做到极致——比如量化对不同模型的精度影响、比如 KV Cache 的内存优化、比如请求调度策略的对比。在一个点上做深，比每个点都浅尝辄止有价值得多

常见误区：

"AI Infra 就是运维"——不是。这个方向的核心是性能优化和系统设计，需要深入理解模型推理的计算特性。纯运维背景转这个方向需要补大量底层知识
"会用 vLLM 就行了"——vLLM 是工具，不是知识。你需要理解它为什么这么设计，才能在它不够用的时候做出正确的判断和扩展

方向三：大模型算法 / 模型训练

这个方向在做什么：

训练和优化大语言模型本身。包括预训练、微调（SFT）、对齐（RLHF / DPO）、模型架构改进、数据工程等。这是最"学术"的方向，和前两个方向的技能树重叠最少。

核心技术栈：

基础	深度学习理论（必须扎实）、概率统计、线性代数、信息论	★★★★★
框架	PyTorch（必须精通）、DeepSpeed / Megatron-LM（分布式训练）	★★★★★
模型架构	Transformer 架构细节、各种 Attention 变体、位置编码方案、MoE	★★★★★
训练技术	SFT / RLHF / DPO / KTO 等对齐方法、LoRA / QLoRA 等高效微调、数据配比与清洗	★★★★★
数据工程	大规模数据处理、数据质量评估、合成数据生成	★★★★
评估	模型评估方法论（Benchmark 设计、人工评估、自动化评估）	★★★★
分布式	多机多卡训练、混合精度、梯度检查点、通信优化	★★★

这个方向的真实门槛：

门槛最高，也最明确——数学基础和研究能力。你需要能读懂顶会论文、理解公式推导、复现实验结果、提出改进方案。这不是"学了技术栈就能做"的方向，更接近于一个研究岗位。

另一个隐性门槛是算力获取。预训练和大规模微调需要大量 GPU 资源，个人很难承担。这意味着这个方向的实践机会高度集中在头部公司和实验室——如果你没有机构背景，入门的实操成本非常高。

学习路径建议：

数学基础必须过关。不是"看过"而是"能推导"的程度。重点是概率统计、优化理论、信息论
把 Transformer 的每一个组件彻底搞透——从零实现一个 mini GPT，在小数据集上训练。这个过程能让你对架构的理解从"知道有什么"变成"知道为什么"
找一个细分方向深入——数据质量、对齐方法、高效微调、评估方法论，选一个方向读 10 篇以上的相关论文，做实验复现和对比

常见误区：

"我跑过一次 LoRA 微调就算会训模型了"——LoRA 微调是模型训练的最浅层面。真正的模型训练岗需要你理解训练动态、loss 曲线分析、数据配比的影响、分布式训练的工程细节
"这个方向最有技术含量"——技术含量不等于市场需求。模型训练岗的绝对需求量远小于 Agent 开发和 AI Infra。选方向要同时考虑兴趣和市场

方向四：端侧 AI / 智能硬件

这个方向在做什么：

让 AI 模型跑在边缘设备上——手机、IoT 设备、机器人、汽车、AR/VR 眼镜等。核心挑战是在有限的算力、内存和功耗约束下，让模型跑得又快又准。

核心技术栈：

语言	C / C++（必须精通）、Python（工具链）、Rust（新项目越来越多）	★★★★★
模型压缩	量化（INT8/INT4/二值化）、剪枝、知识蒸馏、模型架构搜索（NAS）	★★★★★
推理框架	ONNX Runtime Mobile、TensorFlow Lite、Core ML、NCNN、MNN	★★★★★
硬件理解	ARM 架构、NPU/DSP 加速原理、内存带宽限制、功耗模型	★★★★
嵌入式开发	交叉编译、嵌入式 Linux、RTOS、性能 profiling 工具	★★★★
系统集成	音视频处理 pipeline、传感器融合、实时性要求	★★★

这个方向的真实门槛：

门槛在于同时懂 AI 和嵌入式系统的交叉能力。纯做 AI 的人不了解硬件约束，纯做嵌入式的人不了解模型特性。能把模型的计算特点和硬件的能力限制对齐、找到最优的部署方案——这是这个方向最稀缺的能力。

常见误区：

"端侧 AI 就是把模型压缩一下部署上去"——压缩只是第一步。真正的挑战在于整个推理 pipeline 的端到端优化：内存调度、算子融合、异构计算（CPU + GPU + NPU 混合）、实时性保证
"大模型时代端侧 AI 不重要了"——恰恰相反。隐私需求、网络延迟、离线可用性这些硬约束确保了端侧 AI 的长期需求。而且端侧跑 SLM（Small Language Model）正在成为新趋势

跨方向通用能力：不管做哪个方向都需要的

写在最后，有几个能力是不分方向的：

工程基础：Git 工作流、代码可读性、测试意识、文档习惯。这些在任何技术岗都是基本功，但很多 AI 方向的同学因为"跑通实验就行"的习惯而忽视了。

系统思维：不是只盯着自己负责的模块，而是理解整个系统的数据流和依赖关系。改了一个组件，知道会影响哪些上下游。

学习速度：AI 领域的技术栈更新速度远超其他方向。2024 年的最佳实践到 2026 年可能已经过时了。比起"现在会什么"，"能多快学会新东西"才是长期竞争力。

表达能力：能把技术决策讲清楚——为什么选这个方案、取舍是什么、效果如何。这个能力在面试中直接决定了你能不能通过，在工作中直接决定了你的方案能不能推动落地。

一张图看四个方向的技能差异

                    AI 岗位技术栈全景

         Agent 开发          AI Infra
        ┌──────────┐      ┌──────────┐
        │ Python/TS │      │ C++/Go   │
        │ RAG 全链路 │      │ 推理引擎  │
        │ Prompt 工程│      │ GPU 调度  │
        │ MCP/Skills│      │ 量化部署  │
        │ 前端能力   │      │ 分布式系统│
        └────┬─────┘      └────┬─────┘
             │                  │
             │    ┌────────┐    │
             └────┤ 通用   ├────┘
                  │ 基础   │
             ┌────┤        ├────┐
             │    │Git/Linux│    │
             │    │系统思维  │    │
             │    │学习能力  │    │
             │    └────────┘    │
        ┌────┴─────┐      ┌────┴─────┐
        │ PyTorch  │      │ C/C++   │
        │ 训练框架  │      │ 模型压缩  │
        │ 数学基础  │      │ 嵌入式   │
        │ 论文复现  │      │ 硬件理解  │
        │ 数据工程  │      │ 实时系统  │
        └──────────┘      └──────────┘
         模型算法            端侧 AI