字节大模型算法一面凉经-日常实习
1. 项目和八股
介绍一下你做的这个项目
为什么没有用 nsp,只用了 mlm
分析一下transformer训练过程中显存占用和计算复杂度
- 优化器 参数 梯度
- 面试官说到:激活值也需要保存 训练过程中怎么去做到对激活值的显存占用,有什么参数可以进行控制 (答了混合精度,面试官说不对
- 激活显存 ≈ `batch_size × seq_len × hidden_dim × n_layers × bytes_per_element`
- 设置bs相关,也就是使用梯度检查点(Gradient Checkpointing),将大的bs分割成小的micro-bs来计算,最后进行一个统一
PPO DPO GRPO
clip可以限制分布差异 还有哪些方法
KL 散度公式
2. 手撕
给定两个叶子节点,在二叉树中找到两个节点的最近公共祖先,空间复杂度要求o(1)。每个节点存在指向父节点指针
介绍一下你做的这个项目
为什么没有用 nsp,只用了 mlm
分析一下transformer训练过程中显存占用和计算复杂度
- 优化器 参数 梯度
- 面试官说到:激活值也需要保存 训练过程中怎么去做到对激活值的显存占用,有什么参数可以进行控制 (答了混合精度,面试官说不对
- 激活显存 ≈ `batch_size × seq_len × hidden_dim × n_layers × bytes_per_element`
- 设置bs相关,也就是使用梯度检查点(Gradient Checkpointing),将大的bs分割成小的micro-bs来计算,最后进行一个统一
PPO DPO GRPO
clip可以限制分布差异 还有哪些方法
KL 散度公式
2. 手撕
给定两个叶子节点,在二叉树中找到两个节点的最近公共祖先,空间复杂度要求o(1)。每个节点存在指向父节点指针
全部评论
佬面的哪个部门
相关推荐
点赞 评论 收藏
分享

字节跳动稳定性 380人发布