网易某bu大模型开发实习(已入职)
2025-04-08更新
大家选择进入大模型开发,ai应用开发,类似的岗位也需要慎重。很多团队都是草台班子。不过确实学和做的东西比较新。agent,rag这都是经典的,人机交互,业务结合,ai+场景才能走的更远。实习即将结束,总结了几点。
- 大模型开发不只是调prompt和开源仓库,一定要具备基本的开发能力,优秀的项目结构意识,才能让本就混乱的逻辑,走的更远。否则项目迭代个几轮,就得重写了。项目规划能力,结构设计能力。
- 大模型相关的新东西,怎么都学不完,不要陷在里面。新项目,新轮子,新概念。例如MCP,底层还是function call,我们一定要接入MCP嘛,不一定。
- 后端无论如何,都是和数据打交道,接受数据,处理数据,返回。写代码的核心目的是能跑,而不是优化,把效果实现了就好。用业务思路解决问题,代码逻辑轻量化,减少特判。
2024-12-30更新
有同学问咋从后端转大模型
我理解是: 除了 模型基座训练,vllm加速之类的岗,其他都是业务大于算法知识。说白了, 就是要自己做一个(必须是代码主力,写论文等没用)大模型业务项目,针对自己的业务要有思考和优化。可以是RAG,AI搜, agent,都可以,市面上的教程有很多。
这里给大家提供一点面经,我自己做的RAG项目
1, 为什么选择Milvus,有没有了解其他向量数据库
2,200页的pdf怎么处理,怎么处理表格,怎么处理图片
3, 如果问答效果不好,怎么排查badcase
4, 基座模型是什么(豆包),不同基座的区别,怎么微调
5, 知识库检索不到怎么办, 兜底是什么
6, 部署的机子是什么,如何利用多核cpu并发性能
background
纯后端厌倦了,一句话形容,又事多又无聊
又着迷LLM,想转
main-content
主旨就是狠狠拷打,有点压力的意思
先是对项目的真实性表示质疑,我这边给了一些具体的信息
又怀疑项目达到的性能,三方面进行拷打:PE,LoRA,RAG
LoRA主要说了概念,具体怎么用,用在哪些层,为什么有效,成本控制
RAG主要说了知识库建立,也是老生常谈的语义分割和上下文长记忆问题
PE就是列举了几个case,就是CoT,角色扮演,多次迭代
最后做了一道算法 dfs秒了
summary
一定要对基础知识掌握扎实,活学活用,比如问LoRA和Adapter,Knowledge distillation的异同
RAG开发中发现语义分割有问题,后续怎么调整