Shopee 大模型算法开发 一面

1. 自我介绍

2. 介绍你做的模型loss设计,包含基础损失与辅助损失,说明各部分作用与梯度流动逻辑

模型loss采用多任务联合优化框架,主损失负责核心任务拟合,辅助损失用于约束特征对齐、分布对齐与梯度稳定。

以多模态分类模型为例,主损失使用交叉熵损失,直接优化分类准确率;辅助损失包含对比损失用于拉近同类特征距离、拉远异类特征,以及KL散度损失用于对齐教师模型与学生模型的分布。训练时通过权重系数平衡各损失,保证主任务不被辅助任务淹没,同时利用梯度裁剪解决多任务梯度冲突问题。

import torch
import torch.nn as nn

class MultiModalLoss(nn.Module):
    def __init__(self, alpha=0.3, beta=0.2):
        super().__init__()
        self.ce_loss = nn.CrossEntropyLoss()
        self.contrast_loss = nn.CosineEmbeddingLoss()
        self.kl_loss = nn.KLDivLoss(reduction="batchmean")
        self.alpha = alpha
        self.beta = beta

    def forward(self, logits, labels, feat1, feat2, logits_teacher):
        ce = self.ce_loss(logits, labels)
        contrast = self.contrast_loss(feat1, feat2, torch.ones(feat1.size(0)).to(feat1.device))
        kl = self.kl_loss(torch.log_softmax(logits, dim=-1), torch.softmax(logits_teacher, dim=-1))
        total_loss = ce + self.alpha * contrast + self.beta * kl
        return total_loss

3. 扩散模型中噪声预测网络的设计要点,为什么用Transformer比CNN更适合长序列建模

噪声预测网络是扩散模型反向去噪的核心,需精准预测不同时间步的噪声分布。Transformer相比CNN,在长序列建模中具有天然优势:CNN基于局部卷积归纳偏置,难以捕捉长程依赖;而Transformer通过自注意力机制能直接建模全局依赖关系,尤其适合将图像、特征等数据展开为token后进行全局关联,同时支持条件信息的灵活注入,在复杂多模态控制与高维特征建模中表现更优。

4. 大模型微调中,如何解决LoRA适配器与底座模型的特征冲突问题

LoRA通过低秩矩阵学习增量特征,但在多任务切换或多适配器并存时,易出现特征空间冲突。解决方案包括:使用适配器权重归一化,对不同LoRA的增量特征做尺度校正;采用动态路由机制,根据任务需求动态激活对应适配器;在训练时加入特征对齐损失,强制让LoRA学习的增量特征与底座模型特征分布兼容,同时通过梯度正交化减少不同任务适配器的梯度干扰。

5. 推荐系统中,如何处理行为序列的时间间隔偏差,避免模型将平台运营节奏误判为用户兴趣

行为序列的时间间隔受平台推送、活动运营等外部因素影响,直接输入易导致模型噪声拟合。处理方法包括:对时间间隔进行对数缩放与分桶编码,消除极端值影响;引入时间衰减注意力机制,对不同时间间隔的行为赋予动态权重,弱化运营强干扰时段的信号;结合会话边界标记,区分不同会话的行为语义,避免跨会话的时间噪声叠加;最后通过因果推断去除运营策略带来的伪相关。

6. 大模型推理中,PagedAttention如何解决显存碎片问题,相比传统Attention有哪些优化

PagedAttention通过将键值对缓存划分为固定大小的页面,动态分配与释放显存,避免了传统Attention中连续显存申请导致的碎片堆积,同时支持按需加载页面到显存,大幅提升显存利用率。传统Attention在长序列推理时,需一次性加载完整键值矩阵,易出现显存不足或碎片过多导致的OOM;而PagedAttention支持流式页面加载,按需计算注意力,同时通过内存复用减少冗余存储,提升了推理的稳定性与吞吐量。

7. 多模态表征学习中,跨模态对齐的难点,以及如何保证不同模态特征的语义一致性

跨模态对齐难点在于不同模态的特征分布、语义表达形式差异极大,如图像是像素特征、文本是词向量特征,存在模态鸿沟;同时,跨模态数据存在不对齐问题,如图文描述不匹配、特征维度不一致。保证语义一致性的方法包括:采用对比学习框架,让同类跨模态特征在语义空间中聚集、异类特征分离;设计跨模态注意力机制,让不同模态特征在注意力层进行动态交互与对齐;引入统一语义空间映射,将不同模态特征投影到同一向量空间,同时通过模态特定的归一化层消除模态分布差异。

8. 推荐系统中,多目标学习的梯度冲突问题,以及如何通过任务归一化缓解

多目标学习中,不同任务的损失梯度方向可能冲突,导致模型训练不稳定或收敛变慢。梯度

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏 文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

全部评论

相关推荐

04-16 08:58
已编辑
重庆邮电大学 前端工程师
超级社牛老登捞了我一把,所以感觉才会面的比较的顺利,这里也是给老登跪了。而且hr还问了我之前的ld我的表现,我之前的ld也是给了很好的评价,这里也是泪目了,字节飞书管理后台/安全部门 里的人都是超级和善的好人,望周知。还有一点感觉就是现在都不问我的破QQ项目了,我这破QQ项目是我和一个啥鸾工作室同学写的,nm去年都在用,现在再用就有点垃圾了。打算写一个一站式生成Galgame的Agent项目,因为看到最近国G出这么多事,md我想搓个好的国G拯救国G,一面(mt)1. 小红书简历提问,Stylus类名原子化转换器2. Openclaw记忆相关的问题(memory,soul,boostrap之类的,简单说说就完了)3. 如果让你进行一个大型仓库的重构,怎么结合AI进行重构4. 知道harness engineering吗(刷到过,没点进去看)5. 用过哪些模型,用的啥Coding Plan6. 上一段也是字节,为什么离职7. 如下是一段AI写的代码,请你找出它有问题的地方,以及需要改进的地方(闭包,性能问题,强调了下fiber,然后面试官说现在不问八股了)8. 同7,又是一段代码,给出改进意见(utils类型要封装useHooks,代码逻辑耦合,useContext太重导致频繁渲染)9. when,where二面1. 同上,不过深入询问了2. 上一段也是字节,为什么离职3. 说下你用openclaw进行飞书管理后台61个模块改造提效的过程体会4. 算法:get(obj,'a[0].b.c'),获取obj中对应的字段的值5. 算法:ShuffleArr,输入[1,2,3],随机打乱进行输出,每一个数字出现在各个位上的概率是相同的6. harness engineering7. when,where三面(ld)1. 现在让你对一个大型仓库进行业务开发,如何利用AI提效(按照模块or业务进行多Agent各自读取,产生一个各自模块的总结,结合AGENTS.md啥的看能不能补充足够的上下文,然后再开发。其实我是想到什么说什么的)2. 那对于小仓库呢,也要多agent吗?如果宕机了怎么办?怎么控制并发数目?那你可不可以把上面的做成一个插件,你会怎么设计(我说仓库的大小我也不知道怎么界定,那么就让用户选择是否需要多agent分析吧,反正要分析得到一个上下文md,然后是业务开发的agent进行开发,为了避免开发中途宕机or什么问题,所以可以借鉴OpenSpec的tasks.md文件,将开发任务拆成一个个小task,然后完成一个标记一个。至于并发数目我也不明白,暂时就根据用户电脑内存来划分吧,然后测试阶段加一个QA Agent,配上一些可观测数据啥的测试就行。然后说了下上下文焦虑的问题,)3. when,where反问:harness engineering贵部门怎么搭建的?流水线还是多agent协作?hr面1. 面试感受2. 为什么上一段离职3. 你是慢热型的吗4. 介绍工作强度(10-10),团队氛围5. 有很低概率审批挂,or加面反问:为什么面试官感觉都这么懂AI?比我之前面试的AIDP面试官还要厉害的感觉?答:剪映是字节AI试点的业务部门,在大力推AI暂时没有消息,4.15房租到期,俺就要会重庆了,不管怎么样吧,终于还是离开了待了9个月左右的上海,物价没有想的那么贵,虽然房租确实贵,但是吃的还能接受,外卖价格也差不多,但还是怀恋重庆的美食,哪怕回到重庆随便找一家公式化重庆小面品尝一下,都是一件多么棒的美事儿啊
查看15道真题和解析
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务