某游戏大厂 大模型算法一面 日常实习
发一下问题给大家参考,攒攒人品!有面试过同岗的朋友欢迎评论区交流
手撕代码:
a.GRPO的Loss函数,包括随机初始化变量、定义输入与标签和loss的计算过程。
b. Self-Attention
C.RoPE位置编码
八股:
a.AttentionMask:讨论了BERT和GPT中AttentionMask矩阵的区别和具体实现。
b.RL算法:
i.PPO算法的四个核心模块及其与GRPO在优势函数计算上的主要区别。
ii.ValueModel的Loss计算细节。
iii.在需要多轮工具调用的复杂任务中,如何应用GRPO。
手撕代码:
a.GRPO的Loss函数,包括随机初始化变量、定义输入与标签和loss的计算过程。
b. Self-Attention
C.RoPE位置编码
八股:
a.AttentionMask:讨论了BERT和GPT中AttentionMask矩阵的区别和具体实现。
b.RL算法:
i.PPO算法的四个核心模块及其与GRPO在优势函数计算上的主要区别。
ii.ValueModel的Loss计算细节。
iii.在需要多轮工具调用的复杂任务中,如何应用GRPO。
全部评论
强烈推荐!这个笔记写得很清晰 http://github.com/AccumulateMore/CV

可以的,看着很好呢
考虑我司不 欢迎联系
相关推荐

查看15道真题和解析