网易某bu大模型开发实习(已入职)

2025-04-08更新

大家选择进入大模型开发,ai应用开发,类似的岗位也需要慎重。很多团队都是草台班子。不过确实学和做的东西比较新。agent,rag这都是经典的,人机交互,业务结合,ai+场景才能走的更远。实习即将结束,总结了几点。

  1. 大模型开发不只是调prompt和开源仓库,一定要具备基本的开发能力,优秀的项目结构意识,才能让本就混乱的逻辑,走的更远。否则项目迭代个几轮,就得重写了。项目规划能力,结构设计能力。
  2. 大模型相关的新东西,怎么都学不完,不要陷在里面。新项目,新轮子,新概念。例如MCP,底层还是function call,我们一定要接入MCP嘛,不一定。
  3. 后端无论如何,都是和数据打交道,接受数据,处理数据,返回。写代码的核心目的是能跑,而不是优化,把效果实现了就好。用业务思路解决问题,代码逻辑轻量化,减少特判。

2024-12-30更新

有同学问咋从后端转大模型

我理解是: 除了 模型基座训练,vllm加速之类的岗,其他都是业务大于算法知识。说白了, 就是要自己做一个(必须是代码主力,写论文等没用)大模型业务项目,针对自己的业务要有思考和优化。可以是RAG,AI搜, agent,都可以,市面上的教程有很多。

这里给大家提供一点面经,我自己做的RAG项目

1, 为什么选择Milvus,有没有了解其他向量数据库

2,200页的pdf怎么处理,怎么处理表格,怎么处理图片

3, 如果问答效果不好,怎么排查badcase

4, 基座模型是什么(豆包),不同基座的区别,怎么微调

5, 知识库检索不到怎么办, 兜底是什么

6, 部署的机子是什么,如何利用多核cpu并发性能

background

纯后端厌倦了,一句话形容,又事多又无聊

又着迷LLM,想转

main-content

主旨就是狠狠拷打,有点压力的意思

先是对项目的真实性表示质疑,我这边给了一些具体的信息

又怀疑项目达到的性能,三方面进行拷打:PE,LoRA,RAG

LoRA主要说了概念,具体怎么用,用在哪些层,为什么有效,成本控制

RAG主要说了知识库建立,也是老生常谈的语义分割和上下文长记忆问题

PE就是列举了几个case,就是CoT,角色扮演,多次迭代

最后做了一道算法 dfs秒了

summary

一定要对基础知识掌握扎实,活学活用,比如问LoRA和Adapter,Knowledge distillation的异同

RAG开发中发现语义分割有问题,后续怎么调整

全部评论
Hi,能分享一下学习路线吗
1 回复 分享
发布于 2024-12-11 10:41 北京
能分享一下学习路线吗
点赞 回复 分享
发布于 05-05 08:32 辽宁
能分享一下学习路线吗
点赞 回复 分享
发布于 04-17 21:38 北京
能分享一下学习路线吗
点赞 回复 分享
发布于 04-05 09:55 广东
能分享一下学习路线吗
点赞 回复 分享
发布于 03-22 19:50 辽宁
大佬求一个学习路线
点赞 回复 分享
发布于 03-10 16:17 北京
能分享一下学习路线吗
点赞 回复 分享
发布于 02-27 11:46 重庆
能分享一下学习路线吗? 实习的岗位就叫大模型应用开发吗?
点赞 回复 分享
发布于 02-16 00:20 广东
校友。有没有学习路线啊?
点赞 回复 分享
发布于 02-15 20:59 浙江
佬,agent是大模型开发吗?
点赞 回复 分享
发布于 02-11 09:30 广东
面试会问大模型架构算法原理吗
点赞 回复 分享
发布于 02-02 20:30 江苏
能分享一下学习路线吗
点赞 回复 分享
发布于 2024-12-31 15:33 北京
怎么转的呢
点赞 回复 分享
发布于 2024-12-25 22:26 江苏
大模型开发 需要懂算法部分吗
点赞 回复 分享
发布于 2024-11-23 18:18 浙江
m
点赞 回复 分享
发布于 2024-11-09 12:48 北京
大佬有没有什么学习路线资料啥的,大概学多久找到的实习
点赞 回复 分享
发布于 2024-11-07 23:21 广东

相关推荐

1️⃣一面时间:9.12  时长:1hcode:统计岛屿数量、最大岛屿面积,DFS方法解了然后介绍实习项目,面试官非常耐心地听,没有打断八股1.bert和gpt的区别?(从模型架构、训练方式、使用场景方面回答的)2.训练/微调一个LLM的流程?3.实习时用的 megatron 框架吗,对分布式训练框架了解多少?(回答了deepspeed和megatron区别,以及几种并行方式,以及deepspeed的三种zero)4.了解强化学习吗,跟SFT有什么区别?5.反问:业务,对岗位的期望💣评价:有点紧张,算法题有一个小失误没注意到2️⃣二面时间:9.14  时长:1h八股1.写一下 attention 公式(代码实现了下)2.训练时为什么要mask,推理时也需要吗?两处有什么区别?推理时的sequence length和训练时一样吗3.transformer和传统seq2seq模型有什么区别?4.计算attention时为什么要除以d_k,这个d_k的含义是?5.attention计算时还有哪些scale处理?6.attention中softmax函数作用、公式、为什么有减去最大值的处理?换个函数还能这样处理吗?7.解释数值上溢、下溢问题8.讲一下prompt书写的经验,如何判断prompt是否达标,如何改进prompt9.讲一下SFT,会对哪部分计算loss?为什么?10.讲一下deepspeed11.训练用一个7b模型要占用多少显存?不同zero阶段能够节省多少显存?12.训练模型时用了几张卡,有遇到什么异常中断问题吗?反问: 在乎候选人什么能力?对面试表现有哪些改进意见?💣评价: 基础不够扎实,网上有的知识都能回答上来,在同龄人里算比较优秀,欠缺一些多机多卡实践经验。  
查看17道真题和解析
点赞 评论 收藏
分享
评论
6
52
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务