某游戏大厂 大模型算法一面 日常实习

发一下问题给大家参考,攒攒人品!有面试过同岗的朋友欢迎评论区交流
手撕代码:
a.GRPO的Loss函数,包括随机初始化变量、定义输入与标签和loss的计算过程。
b. Self-Attention
C.RoPE位置编码
八股:
a.AttentionMask:讨论了BERT和GPT中AttentionMask矩阵的区别和具体实现。
b.RL算法:
i.PPO算法的四个核心模块及其与GRPO在优势函数计算上的主要区别。
ii.ValueModel的Loss计算细节。
iii.在需要多轮工具调用的复杂任务中,如何应用GRPO。
全部评论
强烈推荐!这个笔记写得很清晰 http://github.com/AccumulateMore/CV
1 回复 分享
发布于 03-26 16:12 广东
可以的,看着很好呢
点赞 回复 分享
发布于 昨天 23:40 北京
考虑我司不 欢迎联系
点赞 回复 分享
发布于 昨天 00:09 上海

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务