+1,上周四电话
2 3

相关推荐

今天 05:47
已编辑
Columbia University 算法工程师
最长公共子序列 求序列?中间endpos作用?是否一定包含在最终序列中?(没跑通,时间不够寄了)复盘:没睡醒没想起来该用backtrack来恢复序列,写的方法错了。rand5实现rand10?期望次数?有优化空间吗?(最后一个没答上来)后续复盘:之前我答的rand5(), 若1,3则 += 0, 2,4 += 0,5重骰,这种方式无法优化但对于rand5() * rand5(),若<= 20则直接%,反之重骰,这种方式有优化空间:落在21-25不重骰,直接复用作为另一个rand5Logistic regression?为什么用CE不用MSE?(先说了极大似然估计,追问还有吗,讲了数值稳定性并加上了sigmoid函数后两者梯度的公式推导)二分类指标?解释一下AUROC?实现中怎么做?(acc --> recall, precision, F1 --> AP & AUROC; 写TPR FPR公式 ;离散化,给定若干个threshold,记录点,然后处理成类似柱状图的计算方式)模型训练出现NaN或者loss不下降的情况?简历项目拷打,讲的强化学习介绍一下强化学习的这些策略?DQN -- > PG --> AC --> A2C,没来得及讲PPO,追问Q和V的关系问GRPO的具体reward?(大致按照自己理解讲了一下怎么从PPO来的,核心在同个state做出不同动作多次采样,归一化训练),训练时间与PPO相比?(其实不是太清楚,从策略空间分析了一下,单次epochGRPO更慢,因为多次采样,达到相同效果需要时间更少,因为当策略空间很大时,PPO需要更多采样次数才能达到与GRPO相同的效果,即多次到达同一个state 选择不同action)训练过程除了你讲的多次采样还有区别吗(没答上来)Update: 没想到过了,感谢面试官捞人!
查看11道真题和解析
点赞 评论 收藏
分享
牛客网
牛客网在线编程
牛客网题解
牛客企业服务