字节中国交易与广告 二面 9.23

被面试官疯狂打断,节奏稀烂
手撕:
有向图判断是否有环(跟阿里云商量好了是吧)
八股:
线程安全怎么实现,CAS具体过程
redis hot key
redis和mysql适用场景
实习:
什么样的设计才算agent(什么问题。。。)
agent效果怎么评测
用langchain怎么拼的提示词
短期记忆怎么实现的

更新:约 10.10 三面
#牛客AI配图神器##校招##面经##字节#
全部评论
同学,瞅瞅我司,医疗独角兽,校招刚开,名额有限,先到先得,我的主页最新动态,绿灯直达,免笔试~
1 回复 分享
发布于 09-27 09:22 广东
这个手撕和207有啥区别
点赞 回复 分享
发布于 10-17 14:31 美国
是后端还是架构呢
点赞 回复 分享
发布于 10-11 20:32 安徽
隔这么久三面吗
点赞 回复 分享
发布于 10-11 20:31 安徽
考图论确实少见
点赞 回复 分享
发布于 09-27 16:17 上海

相关推荐

11-06 05:47
已编辑
Columbia University 算法工程师
最长公共子序列 求序列?中间endpos作用?是否一定包含在最终序列中?(没跑通,时间不够寄了)复盘:没睡醒没想起来该用backtrack来恢复序列,写的方法错了。rand5实现rand10?期望次数?有优化空间吗?(最后一个没答上来)后续复盘:之前我答的rand5(), 若1,3则 += 0, 2,4 += 0,5重骰,这种方式无法优化但对于rand5() * rand5(),若<= 20则直接%,反之重骰,这种方式有优化空间:落在21-25不重骰,直接复用作为另一个rand5Logistic regression?为什么用CE不用MSE?(先说了极大似然估计,追问还有吗,讲了数值稳定性并加上了sigmoid函数后两者梯度的公式推导)二分类指标?解释一下AUROC?实现中怎么做?(acc --> recall, precision, F1 --> AP & AUROC; 写TPR FPR公式 ;离散化,给定若干个threshold,记录点,然后处理成类似柱状图的计算方式)模型训练出现NaN或者loss不下降的情况?简历项目拷打,讲的强化学习介绍一下强化学习的这些策略?DQN -- > PG --> AC --> A2C,没来得及讲PPO,追问Q和V的关系问GRPO的具体reward?(大致按照自己理解讲了一下怎么从PPO来的,核心在同个state做出不同动作多次采样,归一化训练),训练时间与PPO相比?(其实不是太清楚,从策略空间分析了一下,单次epochGRPO更慢,因为多次采样,达到相同效果需要时间更少,因为当策略空间很大时,PPO需要更多采样次数才能达到与GRPO相同的效果,即多次到达同一个state 选择不同action)训练过程除了你讲的多次采样还有区别吗(没答上来)Update: 没想到过了,感谢面试官捞人!
查看11道真题和解析
点赞 评论 收藏
分享
不愿透露姓名的神秘牛友
11-12 15:11
已编辑
点赞 评论 收藏
分享
评论
1
12
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务