03-25 18:28 门头沟学院 FPGA工程师发布于广东

关注

具身智能面试题汇总

1. 为什么选择这个方法？是否尝试过其他 Baseline？效果对比如何？

回答范例与解析（以选择 SAC 算法为例）：

在我的机械臂抓取项目中，我最终选择了**柔性动作评价（Soft Actor-Critic, SAC）**算法。

尝试过的 Baseline：
1. DDPG (Deep Deterministic Policy Gradient)：由于是确定性策略，在具身连续控制中探索能力极差，极易陷入局部最优。
2. PPO (Proximal Policy Optimization)：虽然稳定，但作为 On-policy 算法，样本效率（Sample Efficiency）太低，在真实机械臂或高保真物理引擎（如 Isaac Gym）中采集数据成本过高。
选择 SAC 的原因（结合公式）：

SAC 引入了最大熵（Maximum Entropy）强化学习框架，其优化的目标函数不仅最大化累计奖励，还最大化策略的熵：

$J(\pi) = \sum_{t=0}^{T} \mathbb{E}_{(s_t, a_t) \sim \rho_\pi} \left[ r(s_t, a_t) + \alpha \mathcal{H}(\pi(\cdot | s_t)) \right]$
- $s_t, a_t$ : $t$ 时刻的状态和动作。
- $r(s_t, a_t)$ : 奖励函数。
- $\alpha$ : 温度系数（Temperature Parameter），决定了熵项相对于奖励的重要性。
- $\mathcal{H}(\pi(\cdot | s_t))$ : 策略在给定状态下的熵（即动作分布的随机性）。
效果对比：SAC (Off-policy) 比 PPO 的样本效率高出近一个数量级，同时由于熵正则化的存在，机械臂在面对外部扰动时表现出更强的鲁棒性（Robustness）。

2. 你的奖励函数（Reward Function）是如何设计的？迭代过哪些版本？

回答范例与解析：

我的奖励函数经历了三个版本的迭代，从稀疏奖励到包含势能函数（Potential Function）的密集奖励。

V1 版本：稀疏奖励 (Sparse Reward)

只在任务成功时给奖励。

$r_t = \mathbb{I}(d(p_{\text{gripper}}, p_{\text{obj}}) < \epsilon)$
- $p_{\text{gripper}}$ : 机械臂末端执行器的三维坐标。
- $p_{\text{obj}}$ : 目标物体的三维坐标。
- $d(\cdot, \cdot)$ : 欧氏距离。
- $\epsilon$ : 判定成功的距离阈值。
- $\mathbb{I}(\cdot)$ : 指示函数，条件成立为 1，否则为 0。
- 问题：在复杂的高维动作空间中，机械臂几乎无法通过随机探索获得正反馈，导致梯度消失。
V2 版本：基于距离的密集奖励 (Dense Reward)

$r_t = -w_1 \cdot ||p_{\text{gripper}} - p_{\text{obj}}||_2$
- $w_1$ : 距离惩罚的权重。
- 问题：机械臂会快速靠近物体，但在物体附近会产生“抖动（Jittering）”行为，且无法学习到抓取后的抬起动作。
V3 版本：Reward Shaping（引入势能与动作惩罚的最终版本）

我引入了基于状态差分的势能函数（Potential-based Reward Shaping）以保证最优策略的不变性，并加入了动作惩罚。

$r_t = -w_1 d_t + w_2 (d_{t-1} - d_t) + w_3 \mathbb{I}_{\text{success}} - w_4 ||a_t||_2^2$
- $d_t$ : $t$ 时刻末端到物体的距离。
- $(d_{t-1} - d_t)$ : 距离差分，鼓励机械臂每一步都比上一步更靠近目标。
- $||a_t||_2^2$ : 动作幅度的 L2 范数惩罚，用于降低机械臂的能量消耗和减少不平滑的暴力动作。

# V3 奖励函数伪代码示例
def compute_reward(state, action, next_state, success_threshold=0.05):
    # 解析状态变量
    gripper_pos = state['gripper_pos']
    obj_pos = state['obj_pos']
    next_gripper_pos = next_state['gripper_pos']
    next_obj_pos = next_state['obj_pos']
    
    # 1. 距离惩罚
    dist_current = np.linalg.norm(gripper_pos - obj_pos)
    dist_next = np.linalg.norm(next_gripper_pos - next_obj_pos)
    r_dist = -1.0 * dist_next
    
    # 2. 势能函数 (向目标靠近给予正反馈)
    r_approach = 5.0 * (dist_current - dist_next)
    
    # 3. 成功奖励
    r_success = 100.0 if dist_next < success_threshold else 0.0
    
    # 4. 动作惩罚 (平滑控制)
    r_action_penalty = -0.1 * np.linalg.norm(action)**2
    
    total_reward = r_dist + r_approach + r_success + r_action_penalty
    return total_reward

3. 你认为模仿学习 (IL) 和强化学习 (RL) 在具身任务中各有什么优劣？

回答范例与解析：

在具身智能中，IL 和 RL 是硬币的两面。

模仿学习 (Imitation Learning, 如 Behavior Cloning)

核心逻辑：将控制问题转化为监督学习问题。

$\arg\min_{\theta} \mathbb{E}_{(s, a) \sim \mathcal{D}_{\text{expert}}} \left[ -\log \pi_\theta(a|s) \right]$
- $\mathcal{D}_{\text{expert}}$ : 专家人类遥操作提供的数据集。
- $\pi_\theta(a|s)$ : 模型参数化的策略。
优势：样本效率极高，由于直接学习人类直觉，模型能快速掌握复杂的语义任务（如把苹果放进抽屉）。
劣势：协变量偏移（Covariate Shift）。一旦测试时的状态 $s'$ 偏离了专家分布（比如机械臂被撞了一下），误差会随着时间步 $T$ 指数级累积，导致任务失败。此外，IL 的性能上限被专家水平锁死。

强化学习 (Reinforcement Learning)

核心逻辑：通过与环境交互试错来最大化长期奖励。
优势：可以发现超越人类专家的“涌现行为（Emergent Behaviors）”，在底层运动控制（Locomotion，如四足机器人的步态）上鲁棒性极强。
劣势：奖励函数设计困难（Reward exploitation），并且从零探索（Tabula Rasa）在物理世界中成本极其高昂，容易损坏机器人硬件。

总结：未来的趋势是 IL + RL (如 RLHF 在具身中的应用，或离线 RL)。先用 IL 基于大规模人类数据预训练出一个拥有常识的策略，再用 RL 在仿真或现实中进行微调对齐。

4. 你对 VLA (Vision-Language-Action) 模型持什么态度？认为它最适合哪些应用场景？

回答范例与解析：

我对 VLA 模型（如 Google 的 RT-2, RT-X 系列）持高度乐观的态度，它是具身智能走向通用化（General Purpose Robotics）的必经之路。

VLA 的本质：是将机器人的动作 $a$ 映射到和语言 $l$ 、视觉 $v$ 相同的 Token 空间中，本质上是一个多模态条件生成模型。

$a_t = \text{Decoder}(h_t) \quad \text{where} \quad h_t = \text{Transformer}(v_{\le t}, l, a_{<t})$
最适合的场景：
1. 开放词汇操作 (Open-vocabulary Manipulation)：借助 LLM 的庞大预训练世界知识，VLA 可以理解未见过的指令（如“把那个长得像灭霸的玩具拿给我”），这是传统 RL 无法做到的。
2. 长视距任务规划 (Long-horizon Task Planning)：结合 Chain-of-Thought (CoT)，VLA 模型可以直接在端到端输出中兼顾高层逻辑推理和底层动作输出。
当前局限：推理延迟过高（通常大于 100ms），不适合需要极高控制频率（如 500Hz）的灵巧手操作或高动态任务（如打乒乓球）。

5. Transformer 的注意力机制、RoPE 位置编码原理、LoRA 微调方法的底层逻辑。

回答范例与解析：

(1) 注意力机制 (Scaled Dot-Product Attention)

底层逻辑是计算输入序列中不同 Token 之间的相关性权重，以此来聚合信息。

$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

$Q$ (Query): 当前需要关注其他特征的向量。
$K$ (Key): 其他特征被匹配的向量。
$V$ (Value): 特征的实际内容向量。
$\sqrt{d_k}$ : 缩放因子（ $d_k$ 为 Key 的维度），防止点积结果过大导致 Softmax 梯度消失。

(2) RoPE (Rotary Position Embedding) 旋转位置编码

底层逻辑是通过绝对位置的旋转矩阵操作，巧妙地在点积注意力中实现了相对位置编码。

对于第 $m$ 个位置的特征向量 $x = [x_1, x_2]^T$ （以二维为例）：

$f(x, m) = \begin{pmatrix} \cos(m\theta) & -\sin(m\theta) \\ \sin(m\theta) & \cos(m\theta) \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \end{pmatrix}$

$m$ : Token 的绝对位置索引。
$\theta$ : 预设的旋转基底角度。

当两个向量 $q_m$ 和 $k_n$ 计算内积时，结果只与它们的相对位置 $(m-n)$ 有关，极大地增强了模型对外推（Extrapolation）序列长度的泛化能力。

(3) LoRA (Low-Rank Adaptation) 的底层逻辑

底层逻辑是：预训练大模型在微调时，其参数矩阵的更新量 $\Delta W$ 具有极低的“内在秩（Intrinsic Rank）”。因此，不需要全量微调参数，只需训练两个低秩矩阵的乘积即可。

$h = W_0 x + \Delta W x = W_0 x + B A x$

$x \in \mathbb{R}^{d}$ : 输入向量。
$W_0 \in \mathbb{R}^{d \times k}$ : 冻结的预训练权重矩阵。
$B \in \mathbb{R}^{d \times r}, A \in \mathbb{R}^{r \times k}$ : 可训练的低秩矩阵。
$r$ : 秩大小，且 $r \ll \min(d, k)$ 。

# LoRA 底层逻辑伪代码 (PyTorch 风格)
import torch.nn as nn

class LoRALinear(nn.Module):
    def __init__(self, in_features, out_features, r=8, alpha=16):
        super().__init__()
        # 冻结的原始权重 (不参与梯度更新)
        self.pretrained_weight = nn.Linear(in_features, out_features, bias=False)
        self.pretrained_weight.weight.requires_grad = False
        
        # LoRA 的低秩矩阵 A 和 B
        self.lora_A = nn.Linear(in_features, r, bias=False)
        self.lora_B = nn.Linear(r, out_features, bias=False)
        
        # 缩放因子
        self.scaling = alpha / r
        
        # 初始化: A 为高斯分布，B 必须为 0 矩阵，保证初始状态下 Delta W = 0
        nn.init.normal_(self.lora_A.weight)
        nn.init.zeros_(self.lora_B.weight)

    def forward(self, x):
        # 原始输出 + 低秩通路输出 * 缩放因子
        return self.pretrained_weight(x) + self.lora_B(self.lora_A(x)) * self.scaling

6. VLA 与 World Model 的本质区别；自回归 (AR) 与扩散模型 (DM) 在具身控制中的应用差异。

回答范例与解析：

(1) VLA 与 World Model 的本质区别

VLA 是“策略模型 (Policy Model)”：它解决的是“我看到了什么，我该怎么做”的问题。输入是观察（视觉/语言），输出是动作。

$\pi_{\theta}: (o_{\le t}, l) \rightarrow a_t$
World Model (世界模型) 是“环境动力学模型 (Dynamics Model)”：它解决的是“如果我这么做，世界会变成什么样”的问题。它学习的是环境的状态转移概率。

$\mathcal{M}_{\phi}: (s_t, a_t) \rightarrow (s_{t+1}, r_t)$

区别总结：VLA 用于直接控制机器人；World Model 类似人类大脑中的“物理直觉”，用于在脑内进行“想象和推演”，通常配合规划算法（如 MPC）或作为 RL 的仿真器使用。

(2) 自回归 (AR) 与扩散模型 (DM) 在具身控制中的差异

自回归模型 (Autoregressive)：

通常需要将连续的动作空间离散化（Tokenization）。它将多维动作按维度拆解，依次生成。

$P(A|o) = \prod_{i=1}^{N} P(a^i | a^{<i}, o)$
- $a^i$ : 动作的第 $i$ 个维度（如机械臂某个关节的角度 Token）。
- 特点：擅长引入语言等多模态语义，但推理速度慢，且在连续控制中容易遇到维度间的累积误差。
扩散模型 (Diffusion Model, 如 Diffusion Policy)：

直接在连续的动作空间上进行建模，通过反向扩散过程逐步去噪生成动作序列。

$a_t^{k-1} = \mu_\theta(a_t^k, o_t, k) + \sigma_k \epsilon$
- $a_t^k$ : 第 $k$ 步加噪后的动作。
- $k$ : 扩散步数。
- 特点：完美契合高维连续控制！它可以很好地拟合人类操作数据中的多峰分布（Multimodal Distribution）（例如：绕过障碍物可以从左边绕，也可以从右边绕，传统 MSE 损失会取平均导致直接撞树，而 DM 可以精准输出左或右）。

7. PPO、SAC 等主流算法的原理、优缺点及针对具体任务的改进点。

回答范例与解析：

(1) PPO (Proximal Policy Optimization)

原理：基于 Actor-Critic 架构，利用截断（Clipping）机制限制策略更新的幅度（Trust Region），确保训练的单调递增和稳定性。

$L^{\text{CLIP}}(\theta) = \hat{\mathbb{E}}_t \left[ \min(r_t(\theta)\hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t) \right]$
- $r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\text{old}}}(a_t|s_t)}$ : 新旧策略概率比。
- $\hat{A}_t$ : 优势函数（Advantage Function），评估动作比平均水平好多少。
- $\epsilon$ : 截断范围（常取 0.2）。
优缺点：超参数极度鲁棒，收敛稳定；但由于是 On-policy，只能用当前策略采的数据，样本效率极低。
改进点：在视觉具身任务中，可以使用 Asymmetric Actor-Critic (非对称架构)。Critic 的输入可以是仿真器里的特权状态（Privileged State，如物体精确坐标、质量），而 Actor 的输入只有相机图像。这样既保证了现实部署的可行性，又极大加速了价值网络的收敛。

(2) SAC (Soft Actor-Critic)

原理：如问题 1 所述，是基于最大熵的 Off-policy 算法，不仅要奖励高，还要动作足够随机。使用两个 Q 网络（Double Q-learning）取最小值来缓解 Q 值过估计问题。
优缺点：样本效率极高，探索能力强，抗干扰能力好；缺点是超参数 $\alpha$ （温度系数）极难调，且对状态空间维度和 Reward scale 敏感。
改进点：在机械臂长视距任务中，原生 SAC 难以收敛。改进方法是引入 Automatic Entropy Adjustment（自适应温度调整），根据启发式目标自动通过梯度下降更新 $\alpha$ ，或者结合 Hindsight Experience Replay (HER) 来解决稀疏奖励下的回放池（Buffer）构建问题。

#AI求职记录#