具身智能面试常见题

1. 必须熟悉 DDPG 、 PPO 、 TD3 、 SAC 等算法的原理和区别。

这四种算法是连续控制(如机器人控制)中最常用的深度强化学习算法。

PPO (Proximal Policy Optimization)

  • 原理:PPO是一种同策略(On-policy)的策略梯度算法。它使用截断(Clipping)机制限制新旧策略的更新步长,防止策略更新“翻车”。

  • 核心公式

  • 数值计算示例

    假设在时间步 ,GAE计算出的优势函数 (正数,说明这个动作很好)。

    设定截断超参数

    如果新网络过于激进,导致新旧策略概率比 (新策略采用该动作的概率是旧策略的1.5倍):

    1. 原始目标:

    2. 截断目标:

    3. 取最小值:

      结论:即使网络想大幅度更新到15,PPO强制将其截断为12,保证了训练的稳定性。

DDPG (Deep Deterministic Policy Gradient)

  • 原理:异策略(Off-policy)的 Actor-Critic 算法。Actor输出确定性动作,Critic评估Q值。

  • 核心公式(Critic更新)

  • 数值计算示例

    假设机器人往前走了一步,获得奖励 。折扣因子

    目标网络(Target Actor和Target Critic)预测下一个状态的最优Q值为

    计算TD目标值(备注1):

    如果当前Critic网络预测的Q值为90,则均方误差(MSE) Loss为

TD3 (Twin Delayed DDPG)

  • 原理:解决DDPG中Q值高估问题,引入双Q网络、延迟更新、目标策略平滑。

  • 核心公式(截断双Q学习与平滑)

  • 数值计算示例

    目标Actor给出下一个动作 。加入噪声 (经过截断),最终目标动作

    输入两个目标Critic网络:

    假设 Critic 1 预测Q值为 ,Critic 2 预测Q值为

    TD3取最小值以抑制高估:

    最终TD目标

SAC (Soft Actor-Critic)

  • 原理:异策略的最大熵强化学习算法,鼓励探索。

  • 核心公式(目标函数中的熵项)

  • 数值计算示例

    假设当前状态下有两个离散化的可能动作,策略输出概率分布为

    计算信息熵:

    如果温度系数 。则该步的“软奖励”附加项为

    如果策略变得更随机 ,熵 ,附加奖励变为 。SAC通过这种方式实质性地奖励了探索行为。

2. 理解 GAE (广义优势估计)和 PG (策略梯度)等概念。

PG (Policy Gradient)

  • 公式

  • 数值计算示例

    假设一回合总奖励 。某一步动作 的概率

    。梯度的更新幅度将乘以 。如果同一动作在另一条轨迹总奖励只有 ,则更新力度变为 。网络会逐渐倾向于拉高高回报轨迹中动作的概率。

GAE (Generalized Advantage Estimation)

  • 原理:平衡TD误差的偏差和方差。

  • 核心公式

  • 数值计算示例(2步轨迹的手算)

    ,

    有三个状态 (结束)。

    奖励:

    价值网络预测:(结束状态为0)。

    1. 计算每步单步TD误差 ():

    2. 反向递推计算优势 ():

      最后一步:

      倒数第二步:

    结论:动作 的优势值为正 (1.0295),应鼓励;动作 为负 (-1.0),应抑制。

import torch
# 带入上述数值验证伪代码
rewards = torch.tensor([1.0, 2.0])
values = torch.tensor([2.0, 3.0])
next_value = 0.0
dones = torch.tensor([0.0, 1.0])
gamma, lam = 0.99, 0.95
# (循环逻辑见原始回答,计算结果与手算完全一致)



1. 宏观视角:强化学习的“教练与运动员”

我们可以把整个流程想象成一个**教练(GAE/价值网络)指导运动员(策略网络)**的过程。

策略梯度 (PG) —— 运动员的演习

PG 的核心逻辑非常朴素:“如果这一局赢了,那么这一局里我做的所有动作,以后都要提高出现的概率;如果输了,就降低概率。”

  • 它不关心动作本身好不好,它只关心结果
  • 痛点:如果一局比赛有 1000 步,第 5 步走得精妙绝伦,但第 999 步手滑输了。PG 会因为结局是“输”,而把第 5 步那个天才动作也一起惩罚了。这就是高方差(Variance)

广义优势估计 (GAE) —— 教练的复盘

GAE 就是为了解决上面的痛点。它不再用“最终结果”来评价每一步,而是根据**“这一步比我预想的好多少”**来评价。

  • 它结合了“当前的即时奖励”和“对未来的预测”。
  • 它像一个理性的教练,告诉运动员:“虽然最后输了,但你第 5 步那个操作确实让胜率从 20% 提高到了 60%,那一笔加分!”

2. 完整的 Pipeline(迭代流程)

在实际的 PPO 或 A2C 算法中,数据是这样流动的:

第一步:交互(采样)

运动员(策略网络 )去环境中玩 步。

  • 输出:得到一堆数据 (状态、动作、奖励、下一个状态)。
  • 状态:此时网络参数 是固定的,不更新。

第二步:评价(算分 - GAE 发挥作用)

现在我们要给这 步里的每一个动作 打分,这个分数就是 优势函数

  1. 价值估计:把 输入给“价值网络 ”,它会预测每个状态值多少分。
  2. 计算 TD 误差 ():看看实际拿到的奖励 加上对未来的预期,是否超过了现在的预期。
  3. GAE 平滑:利用 参数,把现在、一秒后、两秒后的误差全部加权累加。
    • 这一步结束后,每个动作 都有了一个精准的 (正数代表比预期好,负数代表比预期差)。

第三步:学习(更新 - PG 发挥作用)

有了打分(),我们要回头修改运动员(策略网络)的肌肉记忆。

  1. 算梯度:找出在状态 下,选择动作 的概率

  2. 加权更新

    • 如果 是正的(好球!),梯度方向会拉高该动作的概率。
    • 如果 是负的(臭球!),梯度方向会压低该动作的概率。
  3. 梯度上升:更新 ,让网络变得更聪明。

第四步:循环

用更新后的“运动员”重新去打球,重复第一步。

3. 为什么一定要 GAE?(深度直觉)

如果我们只用 PG,不加 GAE,会发生什么?

  • 没有 GAE 的 PG(REINFORCE)

    (整局的总分)去乘每一个动作。

    • 缺点:更新极其缓慢且不稳定,就像你参加了一场 3 小时的考试,最后只给你一个总分,你根本不知道哪道题做对了,哪道题做错了。
  • 有了 GAE 的 PG

    去乘每一个动作。

    • 优点:它给每一道题(每一个动作)都安排了一个“小分”。 参数就像一个调节阀:
      • ,它只看下一秒,非常有远见但可能短视。
      • ,它看全局,非常公正但可能被偶然因素(噪声)干扰。
      • GAE 取中间值,实现了偏差和方差的完美平衡

总结:你的计算过程是怎么串起来的?

  1. 网络提供了预期的“基准线”。
  2. (TD Error) 计算了“现实与理想的差距”。
  3. GAE (Advantage) 通过 的递归,把这些差距串成了一条线,给动作定了性(好还是坏)。
  4. PG (Policy Gradient) 拿着这个定性结果,去微调神经网络里的权重。

3. 能讲清楚奖励函数的设计思路,以及如何处理 Sim-to-Real 的 gap。

奖励函数设计思路

  • 公式

  • 数值计算示例

    假设抓取任务权重 ,距离引导 ,平滑度参数 ,惩罚权重

    当前机械臂末端坐标 ,目标物体坐标

    力矩输出二范数的平方

    1. 计算距离: 米。

    2. 计算成型奖励:

    3. 计算惩罚:

    4. 未抓到目标,

      当前步总奖励:

处理 Sim-to-Real 的 Gap (Domain Randomization 数值示例)

在仿真中,我们将机械臂连杆的质量设定为正态分布。真实质量为 2.0 kg,我们在仿真中设定每回合采样质量 。这意味着RL网络在训练时,必须学会一套在 1.6 kg 到 2.4 kg 范围内都能成功的控制策略,从而在部署到物理世界时,直接无视掉电机的摩擦力模型误差。

4. 熟悉 Open-VLA 、 RT-2 等主流模型的架构和思想。

RT-2 (Robotic Transformer 2)

  • 核心思想:将动作当作文本词汇一样进行离散化(Tokenization),直接喂给大模型预测。

  • 数值计算示例(动作 Token 化)

    公式:

    假设需要预测夹爪的开合程度 ,真实物理值范围是 (-1全关,1全开)。

    当前示范数据中,夹爪开合值为

    代入公式:

    此时,物理动作被映射为大模型字典中第 142 个特殊 token(例如 <action_142>)。

Open-VLA

  • 基于7B参数。如果使用FP16精度推理,权重本身需要占用约 14GB 显存,加上KV Cache,通常需要一张 24GB 的 RTX 3090 或 4090 才能进行流畅的单步推理。

5. 了解 LoRA 等微调方法的原理。

LoRA (Low-Rank Adaptation)

  • 公式

  • 数值计算示例(极简矩阵手算)

    假设预训练模型的某个线性层权重 。由于太大被冻结。输入特征

    我们设定秩 (Rank)

    初始化低秩矩阵 为随机高斯分布,假设当前

    初始化低秩矩阵 为全0,但假设训练了几步后

    设缩放因子

    旁路计算过程:

    1. (降维到 r=1)

    2. (升维回2)

    3. 乘以缩放因子:

      最终输出就是在原预训练模型输出 的基础上,加上这微调带来的

      参数量对比:原本如果全参微调需要更新 个参数;使用 的 LoRA 只需要更新 个参数。但在大模型中(比如 ),LoRA () 的参数量仅为全参的

6. 能够分析 VLA 与其他方法(如纯强化学习)的优劣,并思考其在工业界的落地可能性。

  • 数值对比分析
    • 成功率与泛化:在一个“抓取桌上任意颜色的杯子”任务中,纯RL面对未见过的红色杯子,成功率可能从 95% 断崖式下跌到 5%;而VLA因为具备VLM的语义理解,依然能保持 85% 以上的成功率。
    • 控制频率:纯RL网络极小(如MLP),推理延迟在 1ms 以内,支持 500Hz 的底层力控;而 7B 参数的 VLA(哪怕量化为INT8),单次前向推理通常需要 80ms - 200ms,最高只能做 5Hz - 10Hz 的高级动作规划。
  • 工业落地:因此,工业界会采用 上层VLA (2Hz) + 下层MPC/RL (200Hz) 的双层架构。

7. 理解正逆运动学( IK )、 雅各比矩阵 、 PID 控制 、 MPC 等基本概念。

正逆运动学 (以二维平面2自由度机械臂为例)

  • 数值示例

    两根连杆长度 米, 米。

    正运动学 (FK):已知关节角 ,

    末端坐标

    末端坐标

    结论:末端在

    逆运动学 (IK):已知目标点在 ,反推可知 (在无奇异点时成立)。

雅各比矩阵

  • 数值示例

    假设当前算出的 。我们希望末端执行器以线速度 (m/s) 沿x轴正方向平移。

    求解关节速度 (rad/s)。

    也就是关节1不动,关节2以 0.1 rad/s 的速度反转。

PID 控制

  • 公式

  • 数值计算示例

    目标位置 10.0,当前真实位置 8.0。当前误差

    累计历史误差积分

    误差正在减小,变化率

    设置参数

    电机输出力矩 Nm。

8. 了解常见传感器(如 Realsense 深度相机 )的原理和应用。

Realsense 深度相机 (双目视差计算)

  • 公式

  • 数值计算示例

    假设相机的红外镜头焦距 像素。

    左右摄像头的物理基线距离 米 (5厘米)。

    目标物体上的一点,在左眼图像的横坐标为 300,在右眼图像横坐标为 280。视差 像素。

    计算深度距离: 米。

    相机就能输出这个像素点的深度为 1.5m。

9. “你项目里奖励函数为什么这么设置?尝试过哪些其他方式?”

(融入势能计算的数值示例)

“除了稀疏奖励,我使用了基于势能的奖励成型(Potential-based Reward Shaping):

其中 是末端与物体距离倒数的某种缩放。

具体计算:假设距离 ,我们定义势能函数

在状态 (上一步),距离 米,势能

在状态 (执行动作后),机械臂靠近了物体,距离缩小到 米,势能

这一步获得的引导奖励为:

这 1.96 的正奖励有效鼓励了机械臂靠近物体,且数学上保证了不会引入局部最优的‘兜圈子’漏洞(Reward Loop)。”

10. “你的观测空间包含哪些信息?为什么这么设计?”

(融入维度计算的数值示例)

“我的观测空间严格控制了维度大小,以优化样本效率。具体拼接如下:

  1. 本体信息:6自由度机械臂的关节角 (6维) 和角速度 (6维) = 12维。

  2. 末端位姿:位置 3维 + 四元数姿态 4维 + 夹爪开度 1维 = 8维。

  3. 视觉特征:手眼相机的 图像,如果不降维直接Flatten是 21168 维,极易过拟合。我通过冻结的预训练 ResNet-18 提取特征,输出 为 512 维。

    总维度:最终喂入 RL Actor 网络的观测向量 维度为 维的 1D 张量。这个设计既保留了环境的马尔可夫性,又把状态空间压缩到了极简。”

11. “请解释一下 Transformer 的多头注意力机制。”

自注意力机制的数值计算示例

  • 公式

  • 假设输入只有两个 Token(比如“红”、“杯子”),投影后的 维度设积极小,比如

    (两行代表两个词的Query)。

    1. 计算内积

    2. 除以 ,得到注意力分数矩阵:

    3. Softmax(由于非对角线为0,且为了演示简略),结果高度集中在自身。最后乘以 ,完成信息的提取。

      多头机制则是将上述过程在几个并行空间做 次,最后 concat 在一起,保证模型在看同一个词时能提取诸如“颜色”、“形状”等不同子空间的特征。

12. “扩散模型(DM)和自回归模型(AR)在 VLA 中有什么区别?”

  • 自回归 (AR) 数值示例

    预测一个动作序列

    第一步预测概率 。将 放回输入,第二步预测

    整体轨迹联合概率为 。问题在于一旦 预测产生微小误差,误差会随步数指数级累积(Exposure Bias)。

  • 扩散模型 (DM) 数值示例

    预测整条动作轨迹。网络 的任务是预测出当前添加的噪声。

    假设 Ground Truth 动作加上真实采样的高斯噪声

    网络前向推理预测出噪声

    计算 DDPM 的 MSE Loss:

    DM每次直接去噪并输出一个包含多步动作的 Chunk(如 16 步长度),轨迹天然是平滑且相互一致的,彻底解决了 AR 的级联误差问题。

13. “你为什么选择我们实验室/这个方向?”

"我选择具身智能方向,是因为它能闭环干预物理世界。

至于选择贵实验室:

  1. 技术契合度:我阅读了您团队关于扩散模型解决长视野灵巧手操作的论文。我注意到你们将动作预测的 Chunk Size 设定为 32,成功将夹取成功率提升了 15%。我在我之前的项目中也尝试过调整 Action Chunking 的窗口长度,发现 16 到 32 是一个甜点区,这让我对你们的工程细节产生了极大共鸣。
  2. 算力与硬件落地:你们拥有 4 台配备多指灵巧手的真实机器人平台,并且具备私有云的 A100 集群。相比我目前只能用单卡 RTX 3090 跑 50 万步强化学习仿真,你们的平台能让我在相同的周期内跑上 1000 万步,极大地加速 Sim-to-Real 的闭环周期。"

一、 DDPG/PPO/TD3/SAC 到底是干嘛的?输入输出是什么?

它们是一套通用的“大脑学习规则”(连续控制框架)。你可以用它们训练机械臂抓取、训练机器狗跑酷、甚至训练自动驾驶汽车打方向盘。

这四个算法的核心结构通常都包含两个神经网络:Actor(演员,负责输出动作)Critic(评论家,负责打分)

1. 模型的输入 (Observation/State)

在执行任务时,输入给模型(主要是 Actor 网络)的通常是一个一维向量,代表机器人当前感知到的状态 。这个向量里可以拼接各种信息:

  • 物理状态(最常见):比如机械臂6个关节的角度、角速度,末端夹爪的 坐标。如果是一个12维的数组,网络输入层大小就是12。
  • 图像输入(Visual RL):如果你要让模型“看”图像,通常不会把几万像素直接喂给这些强化学习算法。标准的做法是先用一个 CNN(比如 ResNet)把RGB图像压缩成一个固定长度的特征向量(比如 256 维),然后再和上面的物理状态拼接到一起喂给算法。
  • 语言指令:如果是最近流行的语言条件控制,做法类似。把“抓起红色苹果”这句话通过类似 CLIP 的文本编码器变成一串数字向量,也拼接到输入状态里。

2. 模型的输出 (Action)

Actor 网络的输出 下一步要执行的连续动作指令

  • 具体形式:比如一个 6 维的向量,代表机械臂 6 个电机的目标扭矩,或者期望的关节角速度。
  • 输出流向:这个输出会直接发送给物理引擎(比如 Isaac Gym 仿真器)或者真实的硬件控制器去执行。

3. 中间迭代流程 (The RL Loop)

以机械臂抓东西为例,整个闭环迭代过程如下:

  1. 观察环境:传感器获取当前状态 (比如:机械臂在A点,目标在B点)。
  2. 网络决策:把 喂给 Actor 网络,Actor 计算后输出动作 (比如:各个电机转动一定角度)。
  3. 环境反馈:机器人执行动作 后,移动到了新状态 。这时候环境(或你写的代码)会给出一个奖励 (比如:靠近目标了,给 +1 分;撞墙了,给 -10 分)。
  4. 收集数据:把这一步的经历 存到一个“经验回放池”(一个大的数据表)里。
  5. 更新网络
    • Critic 更新:Critic 从池子里拿出数据,学习如何更准确地预测“在某个状态下采取某个动作,未来总共能拿多少分”。(这里就会用到 TD 目标值,马上讲)。
    • Actor 更新:Actor 根据 Critic 的打分来调整自己的参数,确保下次遇到同样情况时,大概率输出得分更高的动作。
  6. 循环:回到第1步,不断重复几万到几百万次,直到模型学会最佳策略。

二、 什么是“TD 目标值 (TD Target)”?

TD(Temporal Difference,时间差分)是强化学习里最精妙的一个概念。你可以把 TD 目标值理解为:结合了刚刚发生的“真实奖励”,对未来总收益做出的“最新、更准确的预测值”。

我举个生活中的例子你就秒懂了:

假设你要从北京开车去上海,出发前你大脑(Critic网络)估算全程需要 12小时

开到天津时,你花掉了 2小时(这相当于当前步的真实奖励 )。此时,你用导航重新查了一下,从天津到上海还需要 9小时(这相当于模型对下一个状态 的未来估算)。

那么,结合这已经走完的一段路,你对“北京到上海”这趟旅程的最新总时间估算变成了:

2小时 (真实已花时间) + 9小时 (最新预测剩余时间) = 11小时

这个 11小时,就是 TD 目标值

你的大脑会根据这个 11 小时,去修正出发前预估的 12 小时。这种利用“走一步看一步”的新信息来不断修正旧预测的方法,就是 TD 学习的核心。

放到公式里看就是这样:

  • :刚刚执行动作拿到的真实奖励(花掉的2小时)。
  • :Critic 网络对到了新状态后,未来还能拿多少分的预测(从天津到上海还要多久)。
  • :折扣因子(通常是 0.99,代表未来的预估要打个折扣,稍微降低点权重)。
  • :算出来的 TD 目标值

在训练时,Critic 网络的任务就是拼命让自己的预测值 去逼近这个 TD 目标值 ,以此来让自己变得越来越精准。

宏观上,DDPG/PPO/TD3/SAC确实都在玩同一个“观察-动作-奖励-更新”的过家家游戏(Actor-Critic 架构)。但在微观上,为了解决训练过程中出现的各种“翻车”问题,科学家们对网络输出形式Q值计算方法奖励机制做了不同的“魔改”。

核心区别就集中在这几个微观层面上。我们可以先把 PPO 拿出来,再把 DDPG、TD3、SAC 这三个“同门师兄弟”放在一起对比。

1. 根本阵营的区别:数据怎么用?

  • PPO(同策略,On-policy): 它是“现学现卖”的典型。Actor 亲自去环境里收集一批数据,用完更新完网络后,这批数据就扔掉了。下一次更新必须再用最新的 Actor 去收集新数据。
  • DDPG / TD3 / SAC(异策略,Off-policy): 它们有一个巨大的“经验回放池”(Replay Buffer)。Actor 收集的数据存进去后,Critic 可以在里面反复捞旧数据来学习。这种方式更节省与环境交互的成本(样本效率高)。

2. 微观手术刀:它们到底在 Q 值和策略上改了什么?

这三个异策略算法(DDPG -> TD3 -> SAC)其实是一部“填坑血泪史”,它们的微观区别刚好回答了你的疑问:

DDPG:开山鼻祖(但也漏洞百出)

  • 动作输出:Actor 直接输出一个确定的数值(比如“电机输出 2.5 牛米”)。这叫确定性策略。
  • Q值计算:Critic 就像一个天真的老师,直接根据正常的 TD 目标值公式 来更新。
  • 致命缺陷:因为神经网络在预测时总会有误差,DDPG 的 Critic 极其容易盲目乐观(Q值高估)。它会把一个明明很烂的动作打出极高的分数,导致 Actor 学废了。

TD3:DDPG 的“强力打补丁版”

为了解决 DDPG 的“盲目乐观”,TD3 在微观的 Q 值计算上做了极其精妙的修改:

  • 双 Q 网络取最小(重点!):它直接搞了两个独立的 Critic 网络。在计算未来的 Q 值预测时,两个网络分别打分,然后强制取两者中较小的一个
    • 生活例子:你去评估一套房子的未来价值,找了两个估价师。一个说值 500 万,一个说值 300 万。为了保险起见(防止高估被套牢),你按 300 万来做决策。
  • 目标策略平滑:在计算 TD 目标值时,它故意给下一步的动作 加上一点点随机噪声。这迫使 Critic 明白:“别只盯着一个特定动作给高分,你要看它周围的一小片区域是不是都好。”
  • 延迟更新:Critic 更新两三次,Actor 才更新一次。等 Critic 把分数算准了,再指导 Actor。

SAC:当今王者,直接修改了“奖励”的定义

SAC 另辟蹊径,它在微观上的最大改变是修改了奖励函数的目标(最大熵框架)

  • 奖励的微观改变:它在传统的真实奖励 后面,硬生生塞进了一个“熵奖励”(Entropy Bonus)。
    • 目标变成了:最大化
  • 动作输出:与 DDPG/TD3 输出确定的动作不同,SAC 的 Actor 输出的是一个高斯分布(均值和方差)
  • 效果:这意味着 SAC 不仅要求机器人把任务完成,还鼓励机器人用尽可能多、尽可能随机的姿势去完成任务。这种微观设计让 SAC 在面对物理环境的突发干扰时,表现出较强的鲁棒性。

3. 一图胜千言:微观区别总结表

算法 Actor 输出形式 Q 值预测微观操作 (Critic) 奖励/更新的特殊机制 适用场景特点
PPO 概率分布 (高斯/离散) 使用优势函数 (Advantage) 截断 (Clipping),防止更新步伐太大扯到蛋 极度稳定,调参最简单,最省心
DDPG 确定性具体数值 单个 Q 网络,直接预测 无特殊机制,直接算 TD 误差 容易崩溃,现在很少单独用
TD3 确定性具体数值 双 Q 网络取最小值 目标动作加噪延迟更新 Actor 训练速度快,算力消耗相对较小
SAC 概率分布 (高斯均值/方差) 双 Q 网络取最小值 最大化策略熵(奖励里加了探索分) 样本利用率极高,真机部署鲁棒性最强

拨开复杂的数学公式,它们在代码实现时,往往只是在 Critic.forward() 或者 Loss 的计算那几行代码里,加上了 torch.min(q1, q2) 或者 + alpha * entropy 这样的小操作,却带来了宏观性能的质变。

#AI求职记录#
全部评论

相关推荐

支出金钱:3000⬇️年夜饭食材辣椒炒火腿肠豆芽炒豆皮蒜黄炒肉西红柿炒鸡蛋对虾(),鱼(最后一天买)⬇️过年清单门帘2个大(1.5*2)(1.3*2)3个小(1*2)果粒橙3瓶&nbsp;&nbsp;&nbsp;雪碧,向日葵5斤,瓜子蒜1斤,糖果2斤,锅盔贡果,大蜡,香,沓子,票子,串子连,二踢脚番茄酱,鸡精红薯,凉菜烟筒接头换压岁钱过年礼品批量买🧨总结🌸果汁买少了,说是招待亲戚,实际年夜饭就开了一瓶,不够。明年买四瓶。🌸馒头买少了,5毛一个,买了14个,不够吃,明年需要买30个🌸菜买少了,很搞笑,20一斤的果冻,买了50块的。7块一斤的算感觉太贵了。乱七八糟的零食买的太多了,蔬菜买的太少了。还嫌弃4块一斤的西红柿贵来着。🌚🌸买的豆腐不新鲜,上面红红的,下次要买白白的,不过豆芽买的不错🌸向日葵30块不够,被我吃了好多。下次多买🌸明年买的白瓜子。去亲戚家吃的,感觉美味🌸家人爱吃酥脆的锅盔,下次买添猪油的。🌸回家一问家人买的门帘12一个,我买的16,讲价了,老板不便宜,赶时间,火速拿下了。又上一当。🌸彩蛋,给二踢脚上面绑纸,炸开后,漫天散花。可惜没有红色彩纸,不然更好看,直接撕了本书,弄的。捂脸,心疼书一秒钟🧨原来3000块可以买这么多东西呢,以后要更努力的赚钱,给家人花钱感觉很开心,啦啦啦附图:火车上站票的大怨种年夜饭MVP,红烧黑鱼严格控制量,年夜饭没有剩饭,空盘了,大年初一没吃剩饭,哈哈哈哈
牛友的春节生活
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务