DeepSeek 算法岗笔试
#你做过最难的笔试是哪家公司#
手写完整的Multi-Head Attention,不能只写框架
DPO的完整训练流程推导,从数据准备到梯度更新
MOE模型的通信开销计算和负载不均衡问题分析
推理加速的底层实现(vLLM的PagedAttention原理、投机解码的工程实现)
手写完整的Multi-Head Attention,不能只写框架
DPO的完整训练流程推导,从数据准备到梯度更新
MOE模型的通信开销计算和负载不均衡问题分析
推理加速的底层实现(vLLM的PagedAttention原理、投机解码的工程实现)
全部评论
相关推荐
03-07 11:53
内蒙古大学 Java 点赞 评论 收藏
分享
帮你内推|快手 校招 点赞 评论 收藏
分享