携程大模型算法开发一面

1. 介绍一下你做过的一个项目

2. LoRA 的原理以及初始化方法是什么

LoRA 的核心是低秩适配。对于原始权重矩阵 (W \in \mathbb{R}^{d \times k})，全参数微调直接更新整个 (W)，成本高、显存占用大。LoRA 认为下游任务需要的更新往往落在一个低秩子空间里，所以把增量写成：

W' = W + \Delta W = W + BA

其中，并且r≪min⁡(d,k)r≪min(d,k)。训练时冻结原始参数 (W)，只训练 (A) 和 (B)，这样参数量和优化器状态都能显著下降。

初始化时通常让 (A) 随机初始化，(B) 初始化为 0，或者相反。这样一开始 (\Delta W = BA = 0)，模型初始前向和原模型完全一致，不会一接入 LoRA 就把预训练能力扰乱。训练开始后，低秩更新逐步学出来。缩放项通常写成：

这里的 (\alpha) 用来控制更新幅度。

import torch
import torch.nn as nn

class LoRALinear(nn.Module):
    def __init__(self, in_features, out_features, r=8, alpha=16):
        super().__init__()
        self.weight = nn.Parameter(torch.randn(out_features, in_features))
        self.weight.requires_grad = False

        self.A = nn.Parameter(torch.randn(r, in_features) * 0.02)
        self.B = nn.Parameter(torch.zeros(out_features, r))
        self.scale = alpha / r

    def forward(self, x):
        delta_w = self.B @ self.A
        return x @ (self.weight + self.scale * delta_w).t()

3. LoRA 里的几个关键参数分别是什么意思

r 是低秩分解的秩，决定更新子空间维度。r 越大，表达能力越强，但参数量、显存和训练成本也会上升。alpha 是缩放系数，实际作用是调节低秩更新的有效幅度，通常和 r 一起考虑，因为真正起作用的是α/r。dropout 是 LoRA 分支上的 dropout，用来防止小数据集微调时过拟合。

还有一个关键点是插入位置。LoRA 不一定每一层都加，也不一定只加在 attention 上。最常见的是加在 q_proj、v_proj，有些任务会加在 k_proj、o_proj，甚至 MLP 的 up/down projection。插在哪里，决定了微调的能力边界和训练成本。一般生成类任务对 attention 层更敏感，领域迁移较大的任务有时会连 MLP 一起加。

4. QLoRA 和 LoRA 的区别是什么

LoRA 是冻结原权重、训练低秩增量。QLoRA 则是在这个基础上，把基座模型权重量化到 4 bit 存储，同时仍然在高精度上训练 LoRA 参数。它的目标是进一步降低显存占用，让更大的模型也能在有限显存下微调。

QLoRA 的关键点有三个。第一，基座权重用 NF4 这类更适合正态分布权重的量化格式存储。第二，计算时会把量化权重反量化到更高精度参与前向。第三，优化器只更新 LoRA 参数，不更新量化后的底座。这样训练开销比普通 LoRA 更低，但如果任务非常依赖底层分布调整，QLoRA 的上限有时会稍逊于全精度 LoRA 或全参微调。

5. DeepSpeed 的 ZeRO 三个阶段分别做了什么

ZeRO 的核心是把传统数据并行里每张卡都完整保存一份模型状态的做法拆开。模型训练时主要有三类大块内存：优化器状态、梯度、参数。ZeRO 就是按阶段逐步把它们分片。

ZeRO-1 只切优化器状态。也就是 Adam 里的 momentum 和 variance 不再每卡完整保留，而是分散到不同设备上。ZeRO-2 在此基础上继续切梯度，反向传播后每张卡只保留自己那份梯度。ZeRO-3 更进一步，把模型参数本身也切开，前向和反向按需 gather。这样显存节省最大，但通信和调度复杂度也最高。

它本质上解决的是“参数冗余复制”问题，不是直接让单卡算得更快，而是让更大模型能训练起来。实际选型时，如果模型不算特别大，ZeRO-2 通常是比较稳的折中；模型继续变大时，ZeRO-3 才更有必要。

6. FSDP 和 DeepSpeed ZeRO-3 的差别是什么

FSDP 和 ZeRO-3 的目标很像，都是把参数、梯度和优化器状态做分片，降低单卡显存压力。但实现方式和工程生态上有一些差异。FSDP 属于 PyTorch 原生体系，更偏框架级封装；ZeRO-3 则来自 DeepSpeed，围绕大模型训练场景做了很多额外优化。

FSDP 通常按 module 为粒度做参数分片和 gather，配合 auto wrap policy 可以比较灵活地控制切分边界。ZeRO-3 更强调状态分片和训练系统整体管理，在配合 CPU offload、NVMe offload、pipeline parallel 时工程能力更完整。实际落地时，如果团队偏 PyTorch 原生、希望代码侵入小一些，FSDP 更自然；如果是超大模型训练、要叠加很多并行策略，DeepSpeed 生态通常更成熟。

7. 强化学习在大模型对齐里一般是什么框架

大模型对齐里最常见的是 RLHF，也就是先监督微调，再偏好建模，再强化学习优化。典型链路是 SFT 得到一个可用策略模型，然后收集偏好数据训练奖励模型，最后用 PPO 之类的算法让策略模型朝高奖励方向更新。

这套框架本质上不是让模型在环境里探索动作，而是把文本生成视作一个序列决策过程，每生成一个 token 都是在做动作选择。奖励信号通常不是即时给每个 token，而是对整段回答或者回答片段打分，所以要把最终奖励回传到生成轨迹里。难点在于奖励稀疏、训练不稳定、模型容易为了讨好奖励模型而偏离原分布，因此实际训练时都会加 KL 约束，把策略模型限制在参考模型附近。