美团大模型算法实习面经-攒人品中
攒攒人品!有面试过同岗的朋友欢迎评论区交流
实习拷打
1. 大模型微调中,如何解决蒸馏数据里“伪优质数据”(表面合规但实际存在误导性)的筛选问题?具体落地策略是什么?
2. Prompt迭代时,如何平衡“指令遵循率”和“业务适配性”?当两者冲突(比如按指令输出但不符合业务规范),你是怎么优化的?
3. 用LoRA做大模型微调时,遇到过过拟合/欠拟合问题吗?具体是怎么排查、解决的?对比全参微调,LoRA在解决这类问题时的优势和局限分别是什么?
4. 设计GRPO奖励函数时,当遇到跨场景需求,奖励权重如何动态调整?合规性的自动化评估,怎么适配不同场景的规范要求?
5. 如何通过业务反馈闭环(用户反馈),反哺模型微调、Prompt优化和数据筛选?举1个你实际处理过的Bad Case,说明完整优化链路。
八股
1. Self-Attention中Q/K/V各自作用?为什么要分开?
2. 把K换成Q(QQV)可行吗?为什么?
实习拷打
1. 大模型微调中,如何解决蒸馏数据里“伪优质数据”(表面合规但实际存在误导性)的筛选问题?具体落地策略是什么?
2. Prompt迭代时,如何平衡“指令遵循率”和“业务适配性”?当两者冲突(比如按指令输出但不符合业务规范),你是怎么优化的?
3. 用LoRA做大模型微调时,遇到过过拟合/欠拟合问题吗?具体是怎么排查、解决的?对比全参微调,LoRA在解决这类问题时的优势和局限分别是什么?
4. 设计GRPO奖励函数时,当遇到跨场景需求,奖励权重如何动态调整?合规性的自动化评估,怎么适配不同场景的规范要求?
5. 如何通过业务反馈闭环(用户反馈),反哺模型微调、Prompt优化和数据筛选?举1个你实际处理过的Bad Case,说明完整优化链路。
八股
1. Self-Attention中Q/K/V各自作用?为什么要分开?
2. 把K换成Q(QQV)可行吗?为什么?
全部评论
强烈推荐!这个笔记写得很清晰 http://github.com/AccumulateMore/CV
相关推荐
查看10道真题和解析