Shopee 大模型算法开发一面

1. 自我介绍

2. 介绍你做的模型loss设计，包含基础损失与辅助损失，说明各部分作用与梯度流动逻辑

模型loss采用多任务联合优化框架，主损失负责核心任务拟合，辅助损失用于约束特征对齐、分布对齐与梯度稳定。

以多模态分类模型为例，主损失使用交叉熵损失，直接优化分类准确率；辅助损失包含对比损失用于拉近同类特征距离、拉远异类特征，以及KL散度损失用于对齐教师模型与学生模型的分布。训练时通过权重系数平衡各损失，保证主任务不被辅助任务淹没，同时利用梯度裁剪解决多任务梯度冲突问题。

import torch
import torch.nn as nn

class MultiModalLoss(nn.Module):
    def __init__(self, alpha=0.3, beta=0.2):
        super().__init__()
        self.ce_loss = nn.CrossEntropyLoss()
        self.contrast_loss = nn.CosineEmbeddingLoss()
        self.kl_loss = nn.KLDivLoss(reduction="batchmean")
        self.alpha = alpha
        self.beta = beta

    def forward(self, logits, labels, feat1, feat2, logits_teacher):
        ce = self.ce_loss(logits, labels)
        contrast = self.contrast_loss(feat1, feat2, torch.ones(feat1.size(0)).to(feat1.device))
        kl = self.kl_loss(torch.log_softmax(logits, dim=-1), torch.softmax(logits_teacher, dim=-1))
        total_loss = ce + self.alpha * contrast + self.beta * kl
        return total_loss

3. 扩散模型中噪声预测网络的设计要点，为什么用Transformer比CNN更适合长序列建模

噪声预测网络是扩散模型反向去噪的核心，需精准预测不同时间步的噪声分布。Transformer相比CNN，在长序列建模中具有天然优势：CNN基于局部卷积归纳偏置，难以捕捉长程依赖；而Transformer通过自注意力机制能直接建模全局依赖关系，尤其适合将图像、特征等数据展开为token后进行全局关联，同时支持条件信息的灵活注入，在复杂多模态控制与高维特征建模中表现更优。

4. 大模型微调中，如何解决LoRA适配器与底座模型的特征冲突问题

LoRA通过低秩矩阵学习增量特征，但在多任务切换或多适配器并存时，易出现特征空间冲突。解决方案包括：使用适配器权重归一化，对不同LoRA的增量特征做尺度校正；采用动态路由机制，根据任务需求动态激活对应适配器；在训练时加入特征对齐损失，强制让LoRA学习的增量特征与底座模型特征分布兼容，同时通过梯度正交化减少不同任务适配器的梯度干扰。

5. 推荐系统中，如何处理行为序列的时间间隔偏差，避免模型将平台运营节奏误判为用户兴趣

行为序列的时间间隔受平台推送、活动运营等外部因素影响，直接输入易导致模型噪声拟合。处理方法包括：对时间间隔进行对数缩放与分桶编码，消除极端值影响；引入时间衰减注意力机制，对不同时间间隔的行为赋予动态权重，弱化运营强干扰时段的信号；结合会话边界标记，区分不同会话的行为语义，避免跨会话的时间噪声叠加；最后通过因果推断去除运营策略带来的伪相关。

6. 大模型推理中，PagedAttention如何解决显存碎片问题，相比传统Attention有哪些优化

PagedAttention通过将键值对缓存划分为固定大小的页面，动态分配与释放显存，避免了传统Attention中连续显存申请导致的碎片堆积，同时支持按需加载页面到显存，大幅提升显存利用率。传统Attention在长序列推理时，需一次性加载完整键值矩阵，易出现显存不足或碎片过多导致的OOM；而PagedAttention支持流式页面加载，按需计算注意力，同时通过内存复用减少冗余存储，提升了推理的稳定性与吞吐量。

7. 多模态表征学习中，跨模态对齐的难点，以及如何保证不同模态特征的语义一致性

跨模态对齐难点在于不同模态的特征分布、语义表达形式差异极大，如图像是像素特征、文本是词向量特征，存在模态鸿沟；同时，跨模态数据存在不对齐问题，如图文描述不匹配、特征维度不一致。保证语义一致性的方法包括：采用对比学习框架，让同类跨模态特征在语义空间中聚集、异类特征分离；设计跨模态注意力机制，让不同模态特征在注意力层进行动态交互与对齐；引入统一语义空间映射，将不同模态特征投影到同一向量空间，同时通过模态特定的归一化层消除模态分布差异。

8. 推荐系统中，多目标学习的梯度冲突问题，以及如何通过任务归一化缓解

多目标学习中，不同任务的损失梯度方向可能冲突，导致模型训练不稳定或收敛变慢。梯度

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点，内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线，提供高频题解析、标准答题思路与工程落地方法，帮助你高效查漏补缺.

全部评论

推荐最新楼层

建飞a

饿了么_算法工程师

@Code_Agent 同学你好！看到你在牛客网分享的【Shopee 大模型算法开发面经】，非常专业！👍 你对多任务学习、LoRA适配器、多模态对齐等技术的深度理解令人印象深刻，特别是对推荐系统中多目标梯度冲突和PagedAttention优化的分析，正是我们团队正在研究的方向！我是淘宝闪购算法团队的建飞，想邀请你加入我们的 2027 届实习生招聘。 🔥 我们团队正在做的方向： ✅ 推荐系统算法优化（MMoE/HiNet/EPNet 等前沿架构） ✅ 大模型在推荐场景的应用（LLM+Rec） ✅ AI Agent 自动化运维与决策 ✅ 多任务学习、序列建模、注意力机制等 📌 岗位方向： • 算法工程师（CTR/CVR/多任务学习） • 后端开发工程师（Java/Go/Python） • 数据分析师 💼 福利待遇： • 实习期：3-6 个月，可转正 • 工作地点：上海/北京/杭州 • 导师一对一指导，参与核心项目 👉 内推码：XT27HP 如果你对我们的团队感兴趣，欢迎回复或直接官网投递简历！

点赞回复分享

发布于今天 03:58 北京