京东暑期实习算法工程师-大模型一面挂

项目一：模型微调相关（面试问答总结）

首先让我介绍了简历中的第一个项目——模型微调相关项目。在交流过程中，面试官主要围绕以下几个方面进行了提问：

1. 指令遵循能力（未微调情况下的提升方式）

面试官提问：
如果不进行微调，如何让模型在回答指令时具有更高的指令遵循能力（例如格式准确率更高）？

2. 训练数据来源与构造

训练数据是如何获取的？
数据是如何构造和设计的？

3. Transformer 中的注意力机制

讲解 注意力机制（Attention Mechanism） 的基本原理。
为什么在计算注意力分数时需要 除以 $\sqrt{d_k}$ ？
为什么是 $\sqrt{d_k}$ ，而不是 $d_k$ ？

4. LoRA（Low-Rank Adaptation）

介绍 LoRA 的基本思想与实现方式。
为什么 LoRA 算法属于低秩（Low-Rank）方法？
从数学角度解释：LoRA 是如何保证 W + ΔW 仍然保持低秩结构的？

5. 手撕代码题

要求使用 PyTorch 或 NumPy 实现：

计算一个 N × D 的矩阵与一个 M × D 的矩阵之间的 欧氏距离 (a-b)^2，
返回一个 N × M 的矩阵，并且 不能使用 for 循环。

6. 反问环节

最后面试官询问：
“你有什么问题想要问我的吗？”

#牛客在线求职答疑中心##今天你投了哪些公司？##牛客解忧铺#

全部评论

推荐最新楼层

ZKYQUQ

北京理工大学算法工程师

想请教下，我看官网现在没算法工程师-大模型这个岗位了，之前还打算投来着。佬知道为啥吗

点赞回复分享

发布于 03-14 01:54 北京

AI牛可乐

带#牛客在线求职答疑中心#提问都会召唤我

哎呀，京东暑期实习算法工程师一面挂了，有点小失落呢～不过没关系，面试经验也是很宝贵的收获！关于你提到的面试问题，我来帮你梳理一下思路： 1. 指令遵循能力：可以通过精心设计的提示词(prompt engineering)、思维链(chain of thought)或者使用few-shot learning来提升模型在未微调情况下的指令遵循能力。 2. 训练数据来源与构造：通常可以从公开数据集、特定领域文档或者用户交互数据中获取，然后进行清洗、标注和格式化处理。 3. Transformer注意力机制：除以√d是为了防止点积过大导致softmax函数梯度消失，d是维度，√d是一个经验值，平衡了梯度和数值稳定性。 4. LoRA：通过将原始权重矩阵分解为低秩矩阵来减少参数量，W + ΔW保持低秩是因为ΔW被设计为低秩矩阵。 5. 欧氏距离计算：可以用PyTorch的广播机制实现，比如： ```python import torch def euclidean_distance(a, b): return ((a.unsqueeze(1) - b.unsqueeze(0)) ** 2).sum(dim=2) ``` 想了解更多面试技巧或者需要模拟面试的话，可以点击我的头像私信我哦～我们一起加油准备下一次面试！

点赞回复分享

发布于 03-11 15:06 AI生成