求职战斗鸡

03-16 22:40 合肥工业大学算法工程师

关注

字节大模型算法日常实习一面

攒攒人品！有面试过同岗的朋友欢迎评论区交流
1.深挖多模态论文介绍transformer架构
2.详细说一下Decoder的因果注意力 QKV分别来自哪
3.Attention为什么要做scaled 不做会怎么样为什么用根号d_k
4.Transformer怎么做加速训练（KV缓存）训练和推理有什么区别（并行化）
5.深挖多模态大模型论文用的video-llama 讲一下大模型的结构
6.论文用了CoT讲一下论文的CoT是怎么样的
7.微调用的LoRA介绍一下LoRA
8.LoRA初始化怎么做的，用的秩是多少，为什么不选其他的数
9.知道deepspeed和megatron吗？分别介绍一下
10.论文用的deepspeed详细讲了一下三个stage分别是什么

全部评论

推荐最新楼层

牛客331535281号

上海理工大学 C++

请问是博士学历嘛

点赞回复分享

发布于 03-18 13:54 黑龙江

04-13 08:54

广西大学算法工程师

作业帮大模型算法开发二面

1. 大模型微调的完整技术方案与工程落地细节采用 LoRA 参数高效微调方案，仅对 Transformer 的 Q/V 投影层添加低秩矩阵，冻结底座模型参数。训练时设置秩 r=8、缩放因子 α=16，使用 AdamW 优化器，学习率 2e-4，配合余弦退火学习率调度与梯度裁剪。工程上使用混合精度训练、分布式数据并行，提升训练效率，训练后合并 LoRA 权重，不增加推理延迟。 import torch import torch.nn as nn class LoRALinear(nn.Module):def __init__(self, in_features, out_features, r=...

查看24道真题和解析

点赞评论收藏

分享

04-12 03:30

门头沟学院算法工程师

27实习腾讯pcg大模型算法一面

给我面没招了，发点面经攒攒人品～1.项目拷打2.pagedattention核心原理；continuous batching；vllm部署的推理策略。3.grpo和ppo的区别以及两者训练时的细节。4.如何判断推理能力和最终答案之间是否有关联；如果不匹配怎么改进？5.推荐场景chosen/reject怎么构造？6.历史反馈有曝光偏差，学不到真实偏好，怎么解决？7.多目标reward怎么设计

查看7道真题和解析

点赞评论收藏

分享

04-14 08:50

广西大学算法工程师

快手大模型算法开发一面

1. 自我介绍2. 项目拷打3. Reward Model 在对齐训练里扮演什么角色Reward Model 本质上是在学一个“人类更偏好什么”的可微近似函数。SFT 学的是“像人那样答”，RM 学的是“人更喜欢哪种答法”。它并不直接生成答案，而是给候选答案打分，把人类偏好从离散排序信号压进一个标量目标里，后续无论是 PPO 还是其他策略优化方法，核心都要依赖这个分数去推动模型往偏好更强的方向移动。RM 最大的价值不是替代人工，而是把人工偏好从逐条监督扩展成可批量泛化的训练信号。真正难的地方在于它很容易学到表面模式，比如更长、更像模板、更会说套话的答案可能被错判成更优，所以 RM 训练的上限很...

AI-Agent面试实战...

点赞评论收藏

分享

04-08 23:46

已编辑

华中农业大学 golang

到底谁在做AI infra呀！

欢迎投递简历！ByteIntern：面向2027届毕业生（2026年9月-2027年8月期间毕业），为符合岗位要求的同学提供转正机会。团队介绍：字节跳动基础设施基础技术团队负责公司统一的基础软件，编译器&amp;语言，DPU，大规模池化存储以及云原生计算集群，AI for Infra，Infra for AI等相关领域，覆盖了在线存储、实时、离线、机器学习、软硬一体、AIOps等多种应用场景，支持公司内外广泛的场景和需求。1、负责集团云原生计算底座，支持推荐、广告、搜索、大模型等训推场景集群管理与调度工作，同时支持集团整体的通用计算业务；2、参与字节跳动GPU集群统一调度系统的设计与实现，优化大规模AI训练与推理场景的资源分配效率；3、参与Agent Runtime底层系统开发，探索轻量级虚拟化、高密度容器镜像等前沿技术；4、参与基础设施的智能化运维，用Agent方式重构传统运维流程，提升系统的自动化与智能化水平；5、参与超大规模基础设施的可用性和稳定性保障。

点赞评论收藏

分享

03-31 00:39

广西大学算法工程师

微信大模型算法开发一面

1. 介绍下你实习学了什么 做过什么项目,为什么离职的2. MoE 为什么能在参数量很大的情况下还能把训练和推理成本压住，真正难点在哪MoE 的关键不是“参数变多了”，而是“每个 token 只激活一部分参数”。也就是说总参数量可以做得很大，但单次前向只走少数几个 expert，所以理论上计算量不会随着总参数线性增长。这个思路在大模型里很有吸引力，因为可以同时兼顾容量和成本。但真正难的地方是路由和负载均衡。路由器如果只偏爱少数 expert，训练会很不稳定，热门 expert 被打爆，冷门 expert 学不到东西。另一个难点是通信开销，尤其多机训练时，token dispatch 和 gat...

AI-Agent面试实战...

点赞评论收藏

分享

评论

1

4

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 如果春招能重来，我会___ #

24503次浏览 256人参与

# 刚入职就____，这样正常吗？ #

144818次浏览 696人参与

# 在爱玛，骑向未来 #

15839次浏览 342人参与

# 这个offer值得去吗？ #

24229次浏览 191人参与

# 有深度的简历长什么样？ #

59303次浏览 758人参与

# 你会因为行情，降低找工作标准吗？ #

37673次浏览 299人参与

# 联宝杯大学生创新大赛，你的技术值得产业级答案 #

48442次浏览 585人参与

# 字节开奖 #

154212次浏览 729人参与

# 面试常问题系列 #

307142次浏览 4797人参与

# 上班苦还是上学苦呢？ #

345946次浏览 2076人参与

# 实习怎么做才有更好的产出 #

50363次浏览 461人参与

# 你见过最离谱的招聘要求是什么？ #

281284次浏览 1887人参与

# 大学四年该怎么过，才不算浪费时间？ #

24078次浏览 108人参与

# 字节求职进展汇总 #

1852563次浏览 15452人参与

# 今年形式下双非本找得到工作吗 #

329217次浏览 1776人参与

# 双非应该如何逆袭？ #

590025次浏览 6421人参与

# 我的秋招“寄”录 #

476816次浏览 3065人参与

# 薪资爆料 #

423591次浏览 2228人参与

# 秋招想进国企该如何准备 #

146911次浏览 687人参与

# 影石Insta360求职进展汇总 #

190533次浏览 1386人参与

# 双非本科求职如何逆袭 #

1652866次浏览 13109人参与

# 简历上的经历如何包装 #

294273次浏览 4122人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务