一只爱飞翔的猪

10-28 18:17 北京理工大学算法工程师发布于北京

关注

sh AI lab 面试题

import torch
import torch.nn as nn
import torch.nn.functional as F

class GRPO:
    def __init__(self, policy, ref_policy, lr=1e-5, beta=0.02, eps_clip=0.2):
        self.policy = policy
        self.ref_policy = ref_policy
        self.optimizer = torch.optim.Adam(policy.parameters(), lr=lr)
        self.beta = beta
        self.eps_clip = eps_clip
    
    def compute_loss(self, input_ids, old_logp, rewards, advantages):
        """
        input_ids: [B, T]
        old_logp: [B, T] 旧策略log概率
        rewards:  RM奖励
        advantages:  GAE优势
        """
        new_logp = self.policy.log_prob(input_ids)  # [B, T]
        ratio = torch.exp(new_logp - old_logp)      # [B, T]
        
        # GRPO：组内归一化优势（每组4样本）
        B = advantages.size(0)
        group_size = 4
        advantages = 
        
        # PPO裁剪
        surr1 = 
        surr2 = 
        policy_loss = 
        
        # KL惩罚
        ref_logp = 
        kl = 
        
        loss = 
        return loss
    
    def step(self, input_ids, old_logp, rewards, advantages):
        loss = self.compute_loss(input_ids, old_logp, rewards, advantages)
        self.optimizer.zero_grad()
        loss.backward()
        torch.nn.utils.clip_grad_norm_(self.policy.parameters(), 1.0)
        self.optimizer.step()
        return loss.item()

全部评论

推荐最新楼层

10-27 19:55

已编辑

门头沟学院 Java

10.27日秋招进展，面的面，挂的挂

今天就一个面试，上海人工智能实验室开发岗面试，感觉项目有一块没说好，别的还行，结果面完到晚上就感谢信了，感觉像没啥HC？或者招的少要求高吧，挂了就挂了吧，他介绍是研究所事业单位什么的，好像也没编制吧，感觉薪资也赶不上大厂白菜价，算了

我的求职进度条

点赞评论收藏

分享

10-31 00:04

Nanyang Technological University 算法工程师

求助offer选择

投票

未来出路选择：目前有几个可能有的offer: 1.中石油华北油田 2.中海油服陆地科研工程师 3. 上海人工智能实验室和某985联培博士offer，方向是大模型算法，导师年轻导师但风评很好 本人bg: 某中9本，新二研究型硕士，本硕阶段AI相关实习论文若干，因为某些原因硕士阶段不考虑大厂 请问各位该如何做选择 不申海外博的原因是硕士导师临时放鸽子，想赶紧入学再申请来不及了，所以读博基本就是国内了  家庭条件：本人男，家里不是巨富但是在本地生活比较富裕，可以支持在河北/天津买房子，但是北京上海肯定买不起。本人除了喜欢吃点好的对于其他要求不高，在沧州/滨海生活也觉得很不错

投递上海人工智能实验室等公司7个岗位

点赞评论收藏

分享

10-29 11:53

已编辑

北京理工大学算法工程师

无论文秋招——上海AI lab一面

项目询问没挖太深问了个PPO和GRPO DAPO的区别问了一个懂不懂vLLM和SGlang的实现问了一个ms-swift 和 VeRL各自设计上的优劣，我说VeRL用起来更方便，每个模块很清晰，ms-swift集成的太好了，不方便改问了一个宏观的问题：如果给你一个多模型后训练任务，怎么设计训练框架？我说两个点，一个是模型加载，需要考虑到适配不同的模型，方便未来的模型加入进来，另外一个是RL这一块，需要适配不同的算法，让用户自己可以比较灵活的去定义和修改算法，例如你实现了 PPO算法，能不能很方便的改成GRPO,DAPO,GSPO。面试官不太懂训模型这一块比较关心框架设计后面反问工作内容也是提到...

查看6道真题和解析

点赞评论收藏

分享

10-30 09:33

门头沟学院 Java

10.22 AI Lab 一面

上海人工智能实验室1. 考研为什么没考9852. 确认岗位：基础架构，基础平台1. 平时了解docker、k8s这些技术吗3. 现在有offer了吗？4. 未来的规划？公司性质、想做什么事情5. 简单介绍做过的项目，挑其中之一，重点讲一下项目背景、做的事情1. 比较像大众点评吗2. 主要负责什么3. 多少人，上线过吗4. 技术上的难点是什么，比如具体的一个功能上碰到的问题，如何解决的5. 你觉得拼单功能最基本的实现可以怎么做1. 怎么保证事务的2. 优化点是怎么做的6. 测试是怎么做的7. 部署在哪了6. 常见的IO模型1. 同步和异步的区别是什么7. 孤儿进程和僵尸进程是什么8. https如何保证安全的1. 详细讲一下如何通过CA做认证的9. 理解容器的隔离机制在底层是怎么实现的吗10. 镜像是什么意思？容器是什么？11. 强一致性与最终一致性的区别12. 用过zookeeper吗1. 主要用了哪些功能2. zookeeper怎么知道客户端的变化的3. 除了心跳机制，还有呢？比如发现节点A不可达了，它会怎么做13. 反问（6分钟）

查看26道真题和解析

点赞评论收藏

分享

11-04 16:48

名古屋大学嵌入式软件工程师

0项目双非本想进大厂实习是痴心妄想吗？

投票

标题党一下orz双非本通信工程，日本qs200硕医疗图像处理方向的lab，目前研0，还剩下4个月gap。因为对国内消费电子领域非常感兴趣，考虑到未来回国就业，想最后3个月再找一段叫得上名字的中大厂实习，选什么岗位方向机会更大点呢?本科期间大把时间都花在学生工作上了，负责并组织了很多次学校活动的视频拍摄，也拍出了很多很牛的宣传片。但一方面专业不相关，一方面不喜欢传媒行业的氛围，回到本专业找工作这些经历似乎连写进简历都不配了目前软件方向有c++和python的基础，上一段小公司实习做过一些数据库增删改查和点点点，毕设做的深度学习图像超分，会写点简单的python自动化脚本；硬件方向在学校摸过各种仪器，有一些简单课设，会一点ad画板子和multisim跑仿真；嵌入式的话，现在在一家芯片中小厂实习做嵌软sdk测试，搞一些测试板的压测，还有yolo模型转换部署的效果验证之类的...目前看下来，因为硕士的研究方向差太远，硬件开发方向应该是不太合适，是刷leetcode往软件测开→开发方向走？还是抓紧借助这段实习的资源掌握一两个Linux方向的嵌入式项目，往嵌软开发方向走？又或者研究研究，往偏硬件的质量or产品方向走？想请教请教有经验的前辈这些方向有没有可能走通，如果可能的话还是想拼一把，好好准备折腾一个月；没可能的话，再去叫不上名字的小厂实习感觉也意义不大，大概就只能摆烂留日了😭

点赞评论收藏

分享

评论

点赞

1

全站热榜

更多

创作者周榜

更多

正在热议

更多

# mt对你说过最有启发的一句话 #

7976次浏览 114人参与

# 市场营销人求职交流聚集地 #

165404次浏览 1224人参与

# 什么是优秀的实习经历 #

2070次浏览 93人参与

# 找工作有哪些冷知识 #

200211次浏览 2547人参与

# 被上班搭子“传染”了哪些习惯 #

2190次浏览 57人参与

# 打工人的精神状态 #

120642次浏览 1386人参与

# 提前批过来人的忠告 #

141807次浏览 1324人参与

# 今年秋招你收到了多少封邮件？ #

5519次浏览 107人参与

# 工作中遇到的歹人 #

9126次浏览 148人参与

# 工作后，你落下了哪些病根 #

5005次浏览 112人参与

# 秋招特别不鸣谢 #

4609次浏览 65人参与

# 选实习，你更看重哪方面？ #

4395次浏览 89人参与

# 滴滴求职进展汇总 #

285679次浏览 2384人参与

# 携程求职进展汇总 #

828863次浏览 5242人参与

# 互联网公司评价 #

463161次浏览 4044人参与

# 工作后明白的那些道理 #

38173次浏览 534人参与

# 摸鱼被leader发现了怎么办 #

78246次浏览 457人参与

# 考研失败就一定是坏事吗？ #

162430次浏览 1152人参与

# 上班到公司第一件事做什么？ #

116350次浏览 816人参与

# 你见过最离谱的招聘要求是什么？ #

246953次浏览 1698人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务