字节tiktok大模型算法实习一面
发点面经攒攒人品~
1. 数据是怎么合成的,相对于现在主流数据合成有何优化;合成数据的标签是怎么打的,有什么优化的地方
2. 数据混合有哪些方法,多样性有哪些角度,怎么保证多样性的同时去除重复数据,讲一下了解的聚类去重,多样性怎么提升
3. 怎么清理高质量sft数据,有哪些纬度
4. 预训练数据下采样,怎么保证多样性
5. 小语种数据怎么合成,方法不限但要控制成本
6. 为什么lora相对全参占用显存更少
code:高精度开n次根号
1. 数据是怎么合成的,相对于现在主流数据合成有何优化;合成数据的标签是怎么打的,有什么优化的地方
2. 数据混合有哪些方法,多样性有哪些角度,怎么保证多样性的同时去除重复数据,讲一下了解的聚类去重,多样性怎么提升
3. 怎么清理高质量sft数据,有哪些纬度
4. 预训练数据下采样,怎么保证多样性
5. 小语种数据怎么合成,方法不限但要控制成本
6. 为什么lora相对全参占用显存更少
code:高精度开n次根号
全部评论
相关推荐
鳕鱼堡ouo:别去。。。除了你的+2和hr其他人都不知道你的工资。也就是说你拿着最低的工资干着和别人一样的活承受着和别人一样的压力,同事半夜拉会也一样会拉你,辛苦和钱多至少得占一样吧,劝退价的话真没必要了 点赞 评论 收藏
分享
03-20 13:37
门头沟学院 Java 点赞 评论 收藏
分享