拼多多算法线下面
1. 构建的新数据集引起其他领域能力下来应该怎么办
2. 介绍transformer结构
3. 了解clip/blip吗
4. QwenVL和InternVL区别
5. lora训练相比全参数训练效果如何,为何要用Lora训练
6. 全参数训练占显存主要在什么地方
7. 降低显存占用的方法:分布式训练
8. 对于大模型落地某个具体任务,优化有哪些方向
9. 多模态大模型训练时是只训LLM部分还是和vit图像编码模块一起训练
10. python里面做大批图像的预处理是多线程还是多进程做
11. 有哪些降低KV cache的技术
代码
1. 一个有序字符串列表,其中插入了稀疏的空字符串,现给定一个新字符串,以O(logn)查询到字符串索引,没有则返回-1
2. 实现多头注意力机制(torch或者numpy)
3. 堆排序过程
2. 介绍transformer结构
3. 了解clip/blip吗
4. QwenVL和InternVL区别
5. lora训练相比全参数训练效果如何,为何要用Lora训练
6. 全参数训练占显存主要在什么地方
7. 降低显存占用的方法:分布式训练
8. 对于大模型落地某个具体任务,优化有哪些方向
9. 多模态大模型训练时是只训LLM部分还是和vit图像编码模块一起训练
10. python里面做大批图像的预处理是多线程还是多进程做
11. 有哪些降低KV cache的技术
代码
1. 一个有序字符串列表,其中插入了稀疏的空字符串,现给定一个新字符串,以O(logn)查询到字符串索引,没有则返回-1
2. 实现多头注意力机制(torch或者numpy)
3. 堆排序过程
全部评论
相关推荐
点赞 评论 收藏
分享