百度文心一言大模型算法实习一面

给我面没招了,感觉自己好菜,发点面经攒攒人品
1、 PPO 与 GRPO 的区别,分别介绍他们的优势与缺点
2、 DPO 对齐训练的曲线是怎么样的,正例的概率会提升嘛
3、 Deepseek -R1里面不仅推理能力很好,而且文采能力也很好,这个是个开放问题,如何让模型的文采能力也很好呢
4、 DPO 如何解决回答过长的问题,除了正则
5、开放问题:为什么现在大家都在关注于大模型的推理能力 reasoning
6、对于一个 base model 如何增强大模型的 reasoning 能力
7、模型选型时是否做定性定量对比ab test,客观数据验证文心性能不好了吗
8、 DPO 除了长度问题还有其他的问题嘛,与问题2对应, reward hacking ?都没有奖励模型了
全部评论

相关推荐

奈何身边无人可说,干脆发网上给大家看个热闹。今天公司年会,老板又让我毕业干脆留在公司,这事目前已经说了很多次了。其实我在入职前其实就已经简单表明过自己的意向了,我想尝试去大公司。他看起来以为我说的是各种工业界的大厂,其实我更喜欢互联网。说说我的看法吧。由于我只把这里当暂时的过度地,整个年会都是以局外人视角在旁观。这里是二线城市的一家小型电气公司,老板是业界有名的专家,公司最大的技术头子。据我观察年会总结发言时的场景,能看出来公司员工对于这位老板很是信服,成员关系还算融洽。喝酒时和聚餐完后,老板总在跟我画饼,说自己多牛逼,公司的前景,要带我做一番事业如何如何,然而就是没讲能给什么待遇。老实说感情牌没啥感觉,我生活水深火热只能放眼当前,只看见一个前景不明的企业,不感兴趣的业务。或许我之后会后悔。我现在仍然在挣扎于简历修改,算法练习和八股/技术学习的深渊中,之后的前景是一片迷茫的。或许我之后会处处碰壁,后悔自己为何没有选择留下获得一份相对稳定的制造业工作。又或许我能突出重围,有机会去做自己真正喜欢的工作,挣更多的钱。可惜我无法看清自己的未来,或许我该留下?我不知道。我只决定遵循自己内心的想法,明年可能会是决定命运的一年。(番外:今天1点多才下班,我跟老板照顾一个同事老哥,他为了表现自己直接喝的不省人事了,我俩抬不动只好叫120,折腾的够呛。他真的太想进步了)
我的实习日记
点赞 评论 收藏
分享
不愿透露姓名的神秘牛友
02-04 17:26
工商银行 市分科技菁英(研发经) 总包15W 硕士海归
点赞 评论 收藏
分享
评论
点赞
3
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务