11.04.2025 字节广告 二面面经及复盘

最长公共子序列 求序列?中间endpos作用?是否一定包含在最终序列中?(没跑通,时间不够寄了)

复盘:
没睡醒没想起来该用backtrack来恢复序列,写的方法错了。

rand5实现rand10?期望次数?有优化空间吗?(最后一个没答上来)

后续复盘:

之前我答的rand5(), 若1,3则 += 0, 2,4 += 0,5重骰,这种方式无法优化
但对于rand5() * rand5(),若<= 20则直接%,反之重骰,这种方式有优化空间:落在21-25不重骰,直接复用作为另一个rand5

Logistic regression?为什么用CE不用MSE?(先说了极大似然估计,追问还有吗,讲了数值稳定性并加上了sigmoid函数后两者梯度的公式推导)

二分类指标?解释一下AUROC?实现中怎么做?(acc --> recall, precision, F1 --> AP & AUROC; 写TPR FPR公式 ;离散化,给定若干个threshold,记录点,然后处理成类似柱状图的计算方式)

模型训练出现NaN或者loss不下降的情况?

简历项目拷打,讲的强化学习

介绍一下强化学习的这些策略?

DQN -- > PG --> AC --> A2C,没来得及讲PPO,追问Q和V的关系

问GRPO的具体reward?(大致按照自己理解讲了一下怎么从PPO来的,核心在同个state做出不同动作多次采样,归一化训练),训练时间与PPO相比?(其实不是太清楚,从策略空间分析了一下,单次epochGRPO更慢,因为多次采样,达到相同效果需要时间更少,因为当策略空间很大时,PPO需要更多采样次数才能达到与GRPO相同的效果,即多次到达同一个state 选择不同action)训练过程除了你讲的多次采样还有区别吗(没答上来)

Update: 没想到过了,感谢面试官捞人!
全部评论

相关推荐

1.&nbsp;&nbsp;注意力机制:请简述&nbsp;MHA、MQA&nbsp;和&nbsp;GQA&nbsp;三种注意力机制的核心区别。2.&nbsp;&nbsp;模型架构:Dense&nbsp;模型与&nbsp;MoE&nbsp;模型有何本质区别?3.&nbsp;&nbsp;路由机制:MoE&nbsp;模型中,路由(Routing)机制具体是如何工作的?4.&nbsp;&nbsp;LoRA&nbsp;微调:请阐述&nbsp;LoRA&nbsp;的原理,以及其中&nbsp;A、B&nbsp;矩阵的初始化方式和秩(Rank)的设置考量。5.&nbsp;&nbsp;强化学习:请对比&nbsp;DPO、PPO&nbsp;和&nbsp;GRPO&nbsp;的原理与区别,并写出&nbsp;DPO&nbsp;的&nbsp;Loss&nbsp;函数公式。6.&nbsp;&nbsp;推理加速:vLLM&nbsp;中使用了哪些关键技术(如&nbsp;PagedAttention、KV&nbsp;Cache)来优化推理?7.&nbsp;&nbsp;并行框架:你对&nbsp;DeepSpeed&nbsp;这一加速推理与训练框架有多少了解?8.&nbsp;&nbsp;BM25&nbsp;算法:请讲解&nbsp;BM25&nbsp;算法的计算原理。9.&nbsp;&nbsp;负载均衡:MoE&nbsp;模型中专家(Expert)的负载不均衡问题该如何解决?10.&nbsp;&nbsp;损失函数:能否通过修改损失函数的方式来缓解&nbsp;MoE&nbsp;的负载均衡问题?11.&nbsp;&nbsp;数据分布:SFT&nbsp;微调数据与预训练数据分布差异较大时,该如何处理?12.&nbsp;Scaling&nbsp;Law:SFT&nbsp;微调的数据集是越大越好吗?是否存在&nbsp;Scaling&nbsp;Law&nbsp;现象?13.&nbsp;训练稳定性:强化学习(RL)为何存在训练不稳定的问题?既然不稳定为何业界仍广泛使用?14.&nbsp;三数之和:LeetCode&nbsp;15.&nbsp;三数之和。📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看14道真题和解析
点赞 评论 收藏
分享
11-27 12:10
门头沟学院 Java
1.&nbsp;JWT数据格式Header.Payload.Signature,Header存算法,Payload存用户信息,Signature用于防篡改2.&nbsp;用户感知token过期前端请求返回401状态码本地缓存过期时间主动判断3.&nbsp;拦截器实现是,实现Spring的HandlerInterceptor接口,重写preHandle等方法4.&nbsp;Bean生命周期实例化→属性注入→初始化→销毁5.&nbsp;后置处理器实现BeanPostProcessor,在bean初始化前后拦截,如AOP代理生成时使用6.&nbsp;Lombok作用自动生成getter/setter/构造器/toString等,减少样板代码,提升开发效率7.&nbsp;Redis数据结构String/List/Hash/Set/ZSet/Bitmap/HyperLogLog/GEO8.&nbsp;ZSet实现底层用跳跃表(SkipList)+哈希表,跳跃表按分数排序,哈希表支持O(1)查分数9.&nbsp;ZSet查询复杂度O(logn),因跳跃表分层结构,每层跳过约一半节点,类似二分查找10.&nbsp;InnoDB索引类型主键索引、唯一索引、普通索引、全文索引(5.6+)、空间索引11.&nbsp;索引有效性判断看查询条件是否命中索引字段,是否避免%前缀模糊查询/函数计算等破坏索引的操作12.&nbsp;索引底层实现B+树结构,普通索引叶子节点存主键值,主键索引存行数据13.&nbsp;进程vs线程进程:资源分配单位,独立地址空间线程:CPU调度单位,共享进程资源,切换开销更小14.&nbsp;线程同步措施synchronized/Lock/Atomic原子类/volatile/CAS/ThreadLocal15.&nbsp;TCP关闭流程四次挥手:客户端FIN→服务端ACK→服务端FIN→客户端ACK16.&nbsp;关闭连接状态客户端:TIME_WAIT(等待2MSL确保包送达)服务端:CLOSE_WAIT(未及时调用close)TIME_WAIT过多会占用端口资源,影响新连接建立手撕&nbsp;数组最小操作次数
查看17道真题和解析
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务