字节电商治理一面(大模型)

团队好像主要做内容治理,vlm,llm都有
主要在问项目了,code是个medium,持续记录!

- 如果训练了多个评测类型的reward model,比如针对3H评测的3个模型,在RLHF阶段怎么用它们?是直接加权还是分阶段用?
- (针对简历项目提问)你在项目里是怎么做RLHF的?用DPO或PPO时,有没有遇到过训练不收敛或者效果不好的情况?可能是什么原因?网上常见的解决办法有哪些?
- 偏好数据是怎么构造的?比如用户点击数据或者人工标注的偏好对,你是怎么处理的?
- 全参微调和LoRA各有什么缺点?在实际项目中,你是怎么决定用哪种方法的?
- 位置编码在Transformer里很重要,能介绍一下常见的位置编码方法吗?比如绝对位置编码、相对位置编码这些,它们各自有什么特点?
#牛客AI配图神器#
#面试问题记录#
全部评论

相关推荐

选择硕博连读还是硕士毕业就业目前情况:985硕士一年级在读,硕士期间无paper论文,无系统科研训练,有一些科研竞赛经历,有女朋友,家庭经济情况一般,不会拖后腿,但是也给不了太大的支持。前段时间得到了一次机会去读985联培博士的项目计划,但是要离家2000公里。优势:1. 研二就可以转博一,博士正常毕业学制是四年,如果能按时毕业的话就是1+4年毕业,能节省2-3年时间2. 经费充足,过去经费一年10w左右,算上学校补贴大约一年能到12w,经济情况可以自理,不用家里掏一分钱。3. 方向是ai大模型、ai4s还有具身智能方向,符合目前主流的趋势,同时算力资源充沛(人均可能2-3张A100),应该能出点成果(不确定)4. 博士单间,条件非常好,30平大house劣势:1. 离家十分远,自己目前没有离家这么远过,有点恋家情节,同时还会和女朋友异地几年(不确定女朋友到时是否来)2. 该联培项目是第一届博士招生,毕业条件未明确量化(估计不会比本校低,本校一般发3-4篇二或三区论文即可),是第一批吃螃蟹的人,不知道未来能否按时毕业。3. 几年过后不知道所做的方向大模型是否依旧火热,以后就业前景大概率是去工业界,联培偏向项目实践,不确定自己能否发出paper,自己也想进入工业界赚米,不确定未来毕业大模型方向是否依旧火热。如果不去联培,以后就业大概率是干java开发或者尝试搜广推(刷实习)。有没有过来人能给点建议,现在十分迷茫,而且抉择涉及未来的人生的规划和发展。所以十分纠结和慎重,已经焦虑了很多天了谢谢各位佬。#硕博连读##读博##就业##大模型##搜广推##java开发#
点赞 评论 收藏
分享
结合最近辅助修改的简历及项目,老师总结了部分大模型微调简历的踩雷点。🙅‍♂️错误示范:在 x任务中,获取 xxx 条数据,通过规则 or 脚本清洗出 x 条数据,然后微调 y 大模型,在业务上提升 x 个点。✍🏻原因:大模型微调的平台是现成的,基模是现成的,体现不出核心能力。✅应该怎么写?首先介绍业务背景:业务是一个销售对话业务,机器人是销售,代替真人,直接面对用户。我们会给模型设定任务,任务是 prompt 。步骤1️⃣.提取训练数据问题:1.真人通话每通电话任务是未知的,我们训练数据是任务+通话的 pair 对。2.真人通话很乱,与客户的对话是各种交叉的,导致 asr 后并不是一人一轮。解决方案:1.首先通过大模型 prompt 对该通电话提取任务,得到任务+ pair 对。需要用到 cot + reflection +多 Ilm 一致性+ debating 的模式。2.使用大模型根据以上任务和真人对话,让大模型编写出通话内容。提问,为什么要编写而不是直接用?步骤2️⃣.制定训练数据集问题:1、正常的对话内容,前面几句和后面几句基本上一致的。都是问候和拜拜,但是也有一些差异。2、因为都是相似场景,虽然任务不同,但是很多场景语义很相似。解决方案:1、基于轮次的权重采样:通过轮次设定权重进行 weighting sample 。解决问候和拜拜的高占比问题。2、基于语义的采样:使用 bert 对对话内容进行 embedding ,然后使用层次聚类通过调节阈值聚类出相似语义的类。对一个类里的样本进行随机采样,提问,为什么要对重复语义的数据进行下采样?3、基于客户类型和产品的采样,因为很多产品是热品,导致对话内容有偏,用户类型一样,需按照类型调整整体比例采样。提问,为什么要这么采样?步骤3️⃣.制定训练数据集我们直接把输出当作 target 进行训练。使用的 lora 训练,但是 lora alpha 设定成为4倍的时候达到了比较好的效果,经验值不同任务不一样,提问,在各种情况下要怎么调?步骤4️⃣.dpo训练问题:v1版本训练时,很多输出内容是对的,但是输出的语气不太像真人,机器人味还是很严重。解决方案:由于训练本身是有 ground truth 的,因此使用v1训练的模型,预测训练集,使用大模型对比两者语气不符合训练集的拿出来,使用训练集的 ground truth 和模型的预测数据作为 dpo 训练对,对v1版本模型重新训练。📳这里老师只是简要进行概括解答,具体情况和详细解答可以咨询辅导,如果想了解项目辅导,提升面试能力,欢迎后台联系。#算法# #简历中的项目经历要怎么写# #算法岗面试# #互联网大厂招聘#
点赞 评论 收藏
分享
评论
1
3
分享

创作者周榜

更多
牛客网
牛客企业服务