Shopee 大模型算法开发一面

1. 自我介绍

2. 介绍你做的模型loss设计，包含基础损失与辅助损失，说明各部分作用与梯度流动逻辑

模型loss采用多任务联合优化框架，主损失负责核心任务拟合，辅助损失用于约束特征对齐、分布对齐与梯度稳定。

以多模态分类模型为例，主损失使用交叉熵损失，直接优化分类准确率；辅助损失包含对比损失用于拉近同类特征距离、拉远异类特征，以及KL散度损失用于对齐教师模型与学生模型的分布。训练时通过权重系数平衡各损失，保证主任务不被辅助任务淹没，同时利用梯度裁剪解决多任务梯度冲突问题。

import torch
import torch.nn as nn

class MultiModalLoss(nn.Module):
    def __init__(self, alpha=0.3, beta=0.2):
        super().__init__()
        self.ce_loss = nn.CrossEntropyLoss()
        self.contrast_loss = nn.CosineEmbeddingLoss()
        self.kl_loss = nn.KLDivLoss(reduction="batchmean")
        self.alpha = alpha
        self.beta = beta

    def forward(self, logits, labels, feat1, feat2, logits_teacher):
        ce = self.ce_loss(logits, labels)
        contrast = self.contrast_loss(feat1, feat2, torch.ones(feat1.size(0)).to(feat1.device))
        kl = self.kl_loss(torch.log_softmax(logits, dim=-1), torch.softmax(logits_teacher, dim=-1))
        total_loss = ce + self.alpha * contrast + self.beta * kl
        return total_loss

3. 扩散模型中噪声预测网络的设计要点，为什么用Transformer比CNN更适合长序列建模

噪声预测网络是扩散模型反向去噪的核心，需精准预测不同时间步的噪声分布。Transformer相比CNN，在长序列建模中具有天然优势：CNN基于局部卷积归纳偏置，难以捕捉长程依赖；而Transformer通过自注意力机制能直接建模全局依赖关系，尤其适合将图像、特征等数据展开为token后进行全局关联，同时支持条件信息的灵活注入，在复杂多模态控制与高维特征建模中表现更优。

4. 大模型微调中，如何解决LoRA适配器与底座模型的特征冲突问题

LoRA通过低秩矩阵学习增量特征，但在多任务切换或多适配器并存时，易出现特征空间冲突。解决方案包括：使用适配器权重归一化，对不同LoRA的增量特征做尺度校正；采用动态路由机制，根据任务需求动态激活对应适配器；在训练时加入特征对齐损失，强制让LoRA学习的增量特征与底座模型特征分布兼容，同时通过梯度正交化减少不同任务适配器的梯度干扰。

5. 推荐系统中，如何处理行为序列的时间间隔偏差，避免模型将平台运营节奏误判为用户兴趣

行为序列的时间间隔受平台推送、活动运营等外部因素影响，直接输入易导致模型噪声拟合。处理方法包括：对时间间隔进行对数缩放与分桶编码，消除极端值影响；引入时间衰减注意力机制，对不同时间间隔的行为赋予动态权重，弱化运营强干扰时段的信号；结合会话边界标记，区分不同会话的行为语义，避免跨会话的时间噪声叠加；最后通过因果推断去除运营策略带来的伪相关。

6. 大模型推理中，PagedAttention如何解决显存碎片问题，相比传统Attention有哪些优化

PagedAttention通过将键值对缓存划分为固定大小的页面，动态分配与释放显存，避免了传统Attention中连续显存申请导致的碎片堆积，同时支持按需加载页面到显存，大幅提升显存利用率。传统Attention在长序列推理时，需一次性加载完整键值矩阵，易出现显存不足或碎片过多导致的OOM；而PagedAttention支持流式页面加载，按需计算注意力，同时通过内存复用减少冗余存储，提升了推理的稳定性与吞吐量。

7. 多模态表征学习中，跨模态对齐的难点，以及如何保证不同模态特征的语义一致性

跨模态对齐难点在于不同模态的特征分布、语义表达形式差异极大，如图像是像素特征、文本是词向量特征，存在模态鸿沟；同时，跨模态数据存在不对齐问题，如图文描述不匹配、特征维度不一致。保证语义一致性的方法包括：采用对比学习框架，让同类跨模态特征在语义空间中聚集、异类特征分离；设计跨模态注意力机制，让不同模态特征在注意力层进行动态交互与对齐；引入统一语义空间映射，将不同模态特征投影到同一向量空间，同时通过模态特定的归一化层消除模态分布差异。