2025-09-17 16:48 门头沟学院算法工程师发布于上海

关注

[复盘]transformer block的完整流程

输入x，然后做归一化得到x_norm(具体实现是乘一个缩放系数)

对x_norm做三个投影K Q V

做attention softmax计算后得到包含上下文关系的context矩阵

对context做一次投影得到attn_out

最后再接入残差网络，作为attention部分的输出x1。其中x1=x+attn_out

＞
接下来就到了FFN的部分，这里普遍采用SwiGLU的结构。

首先对x1做归一化，得到x1_norm。

对x1_norm做两次投影得到a和 b

其中a还需要通过SiLU激活函数，得到a=a*sigmod(a)

然后对a,b进行逐元素乘，得到hidden

最后将hidden投影，得到输出out

到此，一个transformer的层就计算完了，这个out就成为了下一层的输入x

全部评论

推荐最新楼层

麻城理工学校深度学习

点赞回复分享

发布于 2025-09-18 09:41 广东

01-20 11:47

已编辑

北京邮电大学 Python

百度在线网络技术（北京）有限公司一面

文心一言 大模型算法实习生2026.01.15，上午11:00，一面，线上，1h左右，只有自己开了摄像头，面试官没开面试官首先介绍了自己团队的工作，是百度文心团队旗下专注于代码大模型的相关团队，核心工作涉及模型的预训练，也包含后续的后训练工作，同时会进行数据策略的优化，开展数据分析等相关工作。面试时录音了，以下是语音转文字后的简要结果：1.自我介绍2.拷打简历3.你现在在北邮这边读书时，导师这边没有什么项目吗？你这个实习是在研究生阶段去实习的是吗？（实习是本科大四阶段刚结束的，目前处于研0阶段，今年九月读研一，导师这边做 AIGC 文本检测相关项目）4.请讲一讲你那段实习中数据分析系统项目的背...

点赞评论收藏

分享

01-10 05:25

西安交通大学算法工程师

字节大模型算法实习一面

八股 1. Llama的Decoder结构、位置编码有什么改进？2. 三角函数位置编码和ROPE的区别？他们是怎么实现不同的功能？3. 介绍一下RLHF流程，包括哪几步4. llm有哪些评估指标？如何评估模型？5. lora原理细节，为什么可以加速？什么是秩？6. 介绍下Reward model7. dpo训练的损失函数和训练目标8. 不做DPO，只做SFT可以吗？9. Deepseek中SFT冷启动了解吗？手撕10. 给定长度为 n+1 的数组 nums，其中元素取值范围为 [1, n]，求唯一的重复数（力扣287）。11. 手写多头注意力MHA。

查看11道真题和解析

点赞评论收藏

分享

01-25 10:54

门头沟学院大数据开发工程师

数据开发在AI时代的转变，数仓、RAG（检索增强）与 Agent如何支持企业级AI

传统数仓、数据库和分析系统，为业务提供了稳定的数据支持和决策依据。但当数据开始面对 LLM 时，就产生了一个全新的挑战：如何将企业数据转化为模型可感知、可检索、可执行的“上下文”。在企业 AI 系统中，这一过程通常经历三个关键环节：1. 数仓与数据库：提供干净、统一、结构化的业务数据。2. 搜索与 RAG：让模型能够快速、稳定地访问相关信息。3. 工作流与 Agent：将数据能力编排成可执行的任务，实现复杂业务的闭环。图中展示了这一链路的概览。通过这条链路，可以发现数据不再只是“给人看的”，而是成为 AI 执行的核心驱动力。一、从数仓到 LLM：数据“服务对象”的变化在之前的文章中（微信公众号...

AI时代的工作 VS 传...

点赞评论收藏

分享

01-10 22:44

中山大学算法工程师

RAG 系统里面最难搞定的部分？

1️⃣数据准备很多人上来就想着搭 Milvus 或 FAISS ,但根本没搞清楚自己要检索的是什么。RAG 的灵魂在知识库。而知识库的质量，取决于数据处理的精细程度。2️⃣检索召回很多人以为用个 embedding 模型就完事了。但 embedding 模型之间差距极大。在实际项目中，我们踩过很多坑：同样一份知识库，换不同 embedding 模型， RAG 的命中率能差出30%以上。3️⃣Query 理解：很多人以为检索的 query 就是用户的问题本身。但在实际场景里，这一步其实最&quot;坑&quot;。🍊那到底哪一部分最难搞？最难的是让整个系统&quot;协同&quot;起来。这需要你既懂算法，又懂工程。需要同时考虑：1.文档更新频率（知识库维护）2.向量召回性能（索引优化）3.Prompt 格式（生成阶段控制）4.模型响应速度（ API 并发与缓存）换句话说， RAG 是所有&quot;大模型项目&quot;中最能体现&quot;算法工程师功底&quot;的模块。它要求你既能设计算法，又能搭系统。📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

点赞评论收藏

分享

02-04 10:30

上海交通大学算法工程师

京东大模型算法一面

1. 实习介绍2. 看了今年哪些生成式推荐论文3. 然后聊了半小时onerec，重点在多模态tokenizer和语义id4. 拷打简历项目(infonce的温度系数作用，faiss ANN索引，正负样本，特征工程，推理测评指标等)5. RoPE和ALiBi两种相对位置编码的原理6. SwiGLU原理，比relu好在哪7. attention常规八股(根号dk，时间复杂度，为什么要分多头)8. 用过哪些大模型微调方式，LoRA微调原理9. 了解模型蒸馏吗10. 了解目前主流多模态模型吗，扩散模型公式怎么推导的11. 手撕: lc53 最大子数组和改为求出这个子数组

查看11道真题和解析

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 在大厂上班是一种什么样的体验 #

11691次浏览 150人参与

# 你的mentor是什么样的人？ #

51033次浏览 719人参与

# 程序员找工作至少要刷多少题？ #

20337次浏览 258人参与

# 我和mentor的爱恨情仇 #

106171次浏览 945人参与

# 论秋招对个人心气的改变 #

12540次浏览 170人参与

# 校招第一份工作你干了多久？ #

136600次浏览 597人参与

# 机械人避雷的岗位/公司 #

43921次浏览 304人参与

# 为了减少AI幻觉，你注入过哪些设定？ #

5542次浏览 167人参与

# 设计人如何选offer #

189634次浏览 868人参与

# 你的秋招进行到哪一步了 #

2530417次浏览 23253人参与

# 机械人还在等华为开奖吗？ #

312070次浏览 1582人参与

# 牛客AI体验站 #

7423次浏览 200人参与

# 秋招投递记录 #

380840次浏览 3203人参与

# 重来一次，我还会选择这个专业吗 #

411172次浏览 3898人参与

# 12306一秒售罄，你抢到回家的票了吗？ #

2197次浏览 51人参与

# 我现在比当时_，你想录用我吗 #

9177次浏览 117人参与

# 互联网公司评价 #

485820次浏览 4111人参与

# 职场上哪些行为很加分？ #

322403次浏览 3598人参与

# 一张图晒一下你的AI员工 #

5531次浏览 123人参与

# AI Coding的使用心得 #

5037次浏览 105人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务