小鹏汽车 AI Agent 开发一面

1、自我介绍

2、项目拷打

3、介绍 DeepSearch 与 Manus，以及他们之间区别

DeepSearch 更偏深度搜索和信息整合，它的重点是围绕一个复杂问题去查找资料、筛选信息、归纳总结，最后给出一个相对完整的答案。它本质上还是在帮助用户更高效地获取信息，只不过不是简单返回搜索结果，而是多了一层推理和整合能力。

Manus 更偏执行型 Agent，它不只是给答案，而是会围绕一个目标去拆任务、调工具、执行流程，最后把事情做完。也就是说，DeepSearch 更像是帮用户“找”和“整理”，Manus 更像是帮用户“做”和“完成”。

如果简单概括，DeepSearch 的核心是搜索增强和答案生成，Manus 的核心是任务规划和执行闭环。前者更强调信息获取能力，后者更强调行动能力。

4、介绍 LLM Decoder-Only 架构

Decoder-Only 架构本质上就是只使用 Transformer 里的 Decoder 结构，通过自回归的方式一个 token 一个 token 地往后生成内容。它的训练目标通常是 next token prediction，也就是根据前面的上下文预测下一个 token。

它的关键点在于 Masked Self-Attention。所谓 masked，就是当前位置只能看到前面的 token，看不到后面的 token，这样模型才能按从左到右的方式学习生成。整体结构上，输入先经过 embedding 和位置编码，然后进入多层 Decoder Block。每一层里主要有自注意力、前馈网络、残差连接和 LayerNorm，最后经过线性层和 softmax 得到下一个 token 的概率分布。

像 GPT、LLaMA 这些大模型基本都属于这种架构，它的优势是结构统一、适合生成任务，而且扩展性比较强。

5、反向传播的原理

反向传播本质上就是用链式法则去计算损失函数对各层参数的梯度。训练时先做前向传播，把输入送进网络得到预测结果，再根据预测结果和真实标签计算损失。之后从损失出发一层一层往前算梯度，得到每一层参数对最终损失的影响。

因为神经网络本质上是很多层函数复合起来的，所以前面层参数对最终结果的影响，需要通过后面每一层的导数传回来。反向传播解决的就是怎么高效地完成这件事。算出梯度之后，优化器就可以根据梯度去更新参数，让模型逐步收敛。

6、梯度下降介绍一下

梯度下降是一种最优化方法，目标是让损失函数不断变小。它的基本思想是，梯度表示函数上升最快的方向，那如果想让损失下降，就沿着梯度的反方向去更新参数。更新公式通常就是参数减去学习率乘以梯度。

训练时每算完一次梯度，就根据这个方向调整参数。学习率控制的是每次更新步子迈多大，太大可能震荡，太小又会收敛很慢。实际中常见的有 Batch Gradient Descent、SGD 和 Mini-Batch Gradient Descent，现在更常用的是基于梯度下降改进出来的优化器，比如 Adam 和 AdamW。