二等饼干_ - 个人主页动态 - 牛客网

发布(4) 评论刷题收藏

08-17 23:52

杭州电子科技大学 Java

华为内推，2012 AI岗，Java岗

 base  成都上海东莞深圳

投递华为HUAWEI等公司10个岗位

0 点赞评论收藏

分享

07-27 23:03

杭州电子科技大学 Java

2025.07.27 在牛客打卡1天！

0 点赞评论收藏

分享

07-27 23:02

杭州电子科技大学 Java

大模型应用工程师面经~ AI相关岗位内推

自我介绍了解 DeepSeek-R1 吗？介绍一下？R1 的 MLA 是如何实现 KV-Cache 的节约R1 在 SFT 时冷启动的目的位置编码是什么？解释 ROPE？一个 14B 的模型，推理和训练要多少缓存显存的占用和哪些因素有关大模型灾难性遗忘是什么？如何解决？BF16、FP16、FP32 对比？Adam、AdamW 原理deepspeed 的三个阶段自我介绍手写 Self-Attention 公式，解释 Q/K/V 的作用位置编码有哪些实现方式？相对位置编码相比绝对位置编码的优势？LayerNorm 和 BatchNorm 的区别？为什么 Transformer 用 LayerNor...

查看22道真题和解析

0 点赞评论收藏

分享

07-27 22:59

杭州电子科技大学 Java

大模型应用工程师面经~ AI相关岗位内推

● 自我介绍● 了解 DeepSeek-R1 吗？介绍一下？● R1 的 MLA 是如何实现 KV-Cache 的节约● R1 在 SFT 时冷启动的目的● 位置编码是什么？解释 ROPE？● 一个 14B 的模型，推理和训练要多少缓存● 显存的占用和哪些因素有关● 大模型灾难性遗忘是什么？如何解决？● BF16、FP16、FP32 对比？● Adam、AdamW 原理● deepspeed 的三个阶段● 自我介绍● 手写 Self-Attention 公式，解释 Q/K/V 的作用● 位置编码有哪些实现方式？相对位置编码相比绝对位置编码的优势？● LayerNorm 和 BatchNorm 的区别？为什么 Transformer 用 LayerNorm？● 多头注意力的本质是什么？头数如何影响模型性能● 大模型训练中的显存瓶颈如何解决？● LoRA/Adapter/P-Tunning 的区别？如何选择微调方法？● 解释 PLHF 流程，客服场景如何应用？● 大模型灾难性遗忘的原因和缓解方法？● 如何实现混合精度训练（AMP）？遇到 NaN 怎么处理？● Deeppspeed 的 ZeRO 阶段 1 2 3 分别优化了什么？● 解释梯度累计的原理和实现代码？26届校招华为AI岗位内推："AI算法工程师""大模型应用工程师""AI数据工程工程师""AI安全工程师"“AI软件开发工程师”岗位多多，欢迎私聊，或者**************

0 点赞评论收藏

分享

创作者周榜

更多

关注他的用户也关注了：

牛客网
牛客网在线编程
牛客网题解
牛客企业服务