腾讯CDG大模型一面-日常实习

1.项目八股
对于 Megatron-LM,多头注意力计算是使用的 TP 还是 PP,可以举个例子,比如说我现在注意力计算有16 个头,现在是有 4 个 gpu 做 TP,那么是如何进行实现的,是切分行还是切分列
2.手撕
最长递增子序列
3.反问
业务,对实习生的期望
全部评论
我也要去当鹅孝子了
点赞 回复 分享
发布于 昨天 18:15 北京
谢谢大佬分享~
点赞 回复 分享
发布于 昨天 18:15 江苏

相关推荐

01-30 09:45
燕山大学 Java
喵_coding:这种直接跑就完事了 哪有毕业了才签合同 任何offer和三方都没有的
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务