正实现的小目标

01-08 00:25 上海交通大学算法工程师

关注

阿里夸克算法实习面经攒人品

1.Lora 的相关八股:常见参数、缩放
2.有没有做记忆衰退，避免旧数据干扰新任务？
3.Deepspeed zero3为什么比zero2更省显存
4.训练大模型的框架都有哪些呢
5.讲解一下 Flash Attention
6.讲解一下 Qwen 的滑动窗口注意力机制，计算量是多少？
7.PPO 的损失函数构成。
8.讲解一下KL散度。PPO和GRPO的损失函数有哪些区别？
9．在高并发查询 Agent 系统中，你会如何优化召回和生成阶段的延迟？
10．32B 模型全量微调和Lora 微调的显存估算
11．你们这种模块堆叠的架构是怎么设计视觉问答模块和动作模块的协同逻辑的？
12. human feedback 是怎么被 agent 消化吸收的？

全部评论

推荐最新楼层

湖南大学安卓

实习都问的这么难嘛

点赞回复分享

发布于 01-19 18:08 江西

哞客374226558号

数字马力（长沙）信息技术有限公司_后端开发

这问题密度，感觉有希望啊

点赞回复分享

发布于 01-10 21:39 北京

不知道怎么取名字_

西安工程大学嵌入式工程师

你这是日常实习？

点赞回复分享

发布于 01-10 17:30 陕西

04-07 00:00

广西大学算法工程师

快手大模型开发一面

1. 全参数微调的显存一般怎么估算全参数微调的显存不能只看模型参数本身，真正上线训练时至少要把参数、梯度、优化器状态和激活值都算进去。最粗略的估算方式是：如果模型参数量是 N，训练精度是 bf16，那么参数大约占 2N 字节，梯度再来一份 2N，如果用 Adam，还要额外保存两组一阶和二阶矩，通常再加 4N + 4N 字节。也就是说，不考虑激活值时，单参数相关内存大致可以按 12N ~ 16N 字节估。真正把 batch size、sequence length、checkpointing、并行策略加进去后，激活值往往才是大头。所以面试里如果只答“参数量乘 2”基本不够。更稳的答法是先给出静态...

AI-Agent面试实战...

点赞评论收藏

分享

04-04 17:25

门头沟学院 Java

4.2 千问C端ai应用一面

1.项目都是自己做的吗2.rag这边是你做的吗3.向量化不是用milvus本身的模型，自带的吗？面试官提问问题4.入库流程的是自己做的吗5.文件读出读进内存里面，中间的适配器用的什么6.转换的用的什么能力7.精排取的交集还是并集，混合检索的，权重算的吗8.有没有遇到什么case9.有没有招不回的情况答得 检索侧和生成侧 两边的原因可能；语义分块太大；知识库里面没有；语义表述对齐，query表述口语化10.关键词检索BM25算法11.图文检索的用到什么策略吗12.持久化RDB算法和AOF细致讲下13.程序运行内存分布答得：jMM内存结构及数据存储类型aicoding 压测工具，python写，终端测试，生成文档和测试用例结果

查看13道真题和解析

点赞评论收藏

分享

03-25 18:31

门头沟学院 FPGA工程师

具身智能面试题

DDPM 和 DDIM 的区别是什么？ 第一步：前置小知识（重参数化技巧） 在扩散模型中，我们最常用到一个技巧：如果你有一个符合正态分布的变量 （均值为 ，方差为 ），我们可以把它拆成：  这里的  是一个标准正态分布的纯噪声 。 直白点说： 任意状态 = 确定的基础值 + (随机噪声  噪声强度)。记住这个公式，它是贯穿整个推导的灵魂。 第二步：DDPM 的基础设定（从头到尾加噪） 在原来的 DDPM（去噪扩散概率模型）中，我们有一个清晰的正向加噪过程。 假设我们有一张清晰的图像（或者机器人的一个完美动作），叫做 。我们在它上面不断加噪声，加到第  步时，它变成了 。 DDPM 证明了一个极...

点赞评论收藏

分享

04-08 20:41

门头沟学院 Java

4.8 千问c端 ai应用暑期实习二面

1.自我介绍2.rag流程讲下3.基于什么框架搭建的4.ppt智能体怎么做的，是只是部署了吗；做了那部分流式，提示词约束，前后端联调5.分块策略讲下，为啥切分还要设置 固定字符6.为撒选择768维度7.讲下embeindg模型原理，transfomer原理；讲下decoder encoder面：本质上decoder就是一个embedding8 milvus原理BM25算法9.讲下欧式距离 内积 向量i相似度底层怎么计算的讲了内积，分解维度向量，点乘相加10.skill讲下渐进式纰漏，为撒大模型可以决定使用哪个答得意图识别，工具排名，然后选择上面的skill调用11.假设sse输出，前端突然关掉页面，后者服务宕机；并且传输的分片，需要长时间等待（LLM或者文生图这样的模型）（现在一起上传前端）提示网络层去做答得：中间件存储面：可以在网络层加心跳机制12.选择一个你擅长的点openclaw claude13claude的skill有哪些；14.你觉得claude有哪些可以拓展的点答得记忆和skill，和项目风格和上下文对齐15.function call mcp skill 调用有什么区别16.openclaw除了定时和skill还用过其他的功能吗17.用aicodeing多吗，用的什么模型；讲下aicoding思路，知道热更新机制的模块吗；glm5，中转节点先架构，python，必须简单运行，先写总体文档，列出要考虑生成环境的点9.2终端再分模块开发限制9-13min18.生产环境考虑的点kafka的一套，有序，幂等，消息丢失；并发；内存存储，服务宕机重启，数据丢失19.为啥要再生成一份项目交付md把需求md覆盖了，生成了个总结的文档主要拷打了底层微调也有问，和transfomer架构kqv和中间额层，和具体用哪个通用大模型的关系

查看27道真题和解析

点赞评论收藏

分享

03-30 15:45

广西大学算法工程师

好未来大模型算法开发一面

1. 介绍一下 bge-m3 和 DBSCAN，以及它们各自的优势bge-m3 是一个面向检索场景的多功能 embedding 模型，它的特点不是单一做稠密向量表示，而是把 dense、sparse 和 multi-vector 几种检索能力统一到一个模型里。dense 表示负责语义相似，sparse 表示更接近关键词匹配，multi-vector 更适合长文档和细粒度匹配。这样做的好处是一个模型可以兼顾语义召回和词面召回，尤其适合知识检索、教育问答、题目匹配这类场景。DBSCAN 是一种基于密度的聚类算法。它通过两个参数来定义簇：一个是邻域半径 eps，一个是形成核心点所需的最小样本数 mi...

AI-Agent面试实战...

点赞评论收藏

分享

评论

1

7

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 你简历上最心虚的一句话 #

4867次浏览 29人参与

# 简历上如何体现你的“AI”能力？ #

921次浏览 27人参与

# 华泰星战营，提前锁定校招offer #

6566次浏览 302人参与

# 我的求职进度条 #

1262939次浏览 9347人参与

# 哪些AI项目值得做？ #

739次浏览 29人参与

# 你知道最慷慨和最抠的公司分别是 #

786次浏览 19人参与

# 实习时最怕听到的一句话 #

861次浏览 19人参与

# 找不到大厂实习可以去小厂吗？ #

1459次浏览 18人参与

# 没有面试的日子里，你在做什么 #

1252次浏览 25人参与

# 工作丧失热情的瞬间 #

388402次浏览 2581人参与

# 考公VS就业，你怎么选？ #

100449次浏览 530人参与

# 商战，最累的是我们 #

31816次浏览 99人参与

# 机械笔面试考察这些知识点 #

18055次浏览 126人参与

# 字节7000实习来了，你投了吗？ #

45253次浏览 355人参与

# 大学生该如何认清当下的就业环境？ #

166695次浏览 916人参与

# 26届春招投递记录 #

5409次浏览 55人参与

# 找工作的破防时刻 #

290014次浏览 2066人参与

# 小红书求职进展汇总 #

238798次浏览 1397人参与

# 机械求职避坑tips #

100524次浏览 580人参与

# 卷__卷不过你们，只能卷__了 #

60464次浏览 764人参与

# 硬件人求职现状 #

529491次浏览 4830人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务