公司的大模型微调项目怎么学
如题 鼠鼠目前正在进行一段大模型agent的实习 实习了四个月了捏
但每天就只是看看agent的论文
设计设计项目流程
然后无法接触大模型微调或预训练
鼠鼠拿到了项目微调的代码
鼠鼠想问问各位大哥 对于这个微调项目侧重需要弄懂哪里呢 鼠鼠现在学习了Megatron 和deep speed 还有模型结构 分词方法 还有别的咩 #牛客帮帮团来啦!有问必答# #不给转正的实习,你还去吗#
但每天就只是看看agent的论文
设计设计项目流程
然后无法接触大模型微调或预训练
鼠鼠拿到了项目微调的代码
鼠鼠想问问各位大哥 对于这个微调项目侧重需要弄懂哪里呢 鼠鼠现在学习了Megatron 和deep speed 还有模型结构 分词方法 还有别的咩 #牛客帮帮团来啦!有问必答# #不给转正的实习,你还去吗#
全部评论
m
送花
回复 分享
了解megatron和deepspeed不就行吗,知道原理面试能说出来也算是实践了啊,或者问问同组做这个的前辈咋做的也行啊
送花
回复 分享
国泰君安
官网直投
最好还是有创新,解决了一些问题。
送花
回复 分享
相关推荐
投票
点赞 评论 收藏
分享
点赞 评论 收藏
分享