公司的大模型微调项目怎么学
如题 鼠鼠目前正在进行一段大模型agent的实习 实习了四个月了捏
但每天就只是看看agent的论文
设计设计项目流程
然后无法接触大模型微调或预训练
鼠鼠拿到了项目微调的代码
鼠鼠想问问各位大哥 对于这个微调项目侧重需要弄懂哪里呢 鼠鼠现在学习了Megatron 和deep speed 还有模型结构 分词方法 还有别的咩 #牛客帮帮团来啦!有问必答# #不给转正的实习,你还去吗#
但每天就只是看看agent的论文
设计设计项目流程
然后无法接触大模型微调或预训练
鼠鼠拿到了项目微调的代码
鼠鼠想问问各位大哥 对于这个微调项目侧重需要弄懂哪里呢 鼠鼠现在学习了Megatron 和deep speed 还有模型结构 分词方法 还有别的咩 #牛客帮帮团来啦!有问必答# #不给转正的实习,你还去吗#
全部评论
m
送花
回复
分享
了解megatron和deepspeed不就行吗,知道原理面试能说出来也算是实践了啊,或者问问同组做这个的前辈咋做的也行啊
送花
回复
分享
滴滴
官网直投
最好还是有创新,解决了一些问题。
送花
回复
分享
相关推荐
04-30 12:52
北京航空航天大学 计算机类 点赞 评论 收藏
转发
04-28 14:45
腾讯_PCG腾讯看点_应用研究员 点赞 评论 收藏
转发
不愿透露姓名的神秘牛友
05-11 00:44
已编辑
点赞 评论 收藏
转发