3.30美团ai应用一面

1.skills和tools是怎么区分的？

2.skills真正的优点是什么？能做到什么？

3.mcp的讲解？

mcp要定义接口的话，必须把参数那些都定义到上下文中，他是一个比较冗余的信息，会污染到上下文。正常的工具调用是不需要这些冗杂语义的，而skill会隔离这些东西在上下文里面会去隔离这些东西，不光是token消耗量。还有一个重点就是做到按需加载，渐进式加载的问题。

4.长期记忆是怎么做的？

用户的记忆属于实体记忆，实体记忆应该更偏向于关键词记忆，并非rag。

5.接触过融合检索吗？融合检索是什么？

6.混合检索的融合算法是什么样的？他的比重是什么样子的？有可能rag找回了top5，es召回了top5，最后只要五个，如何排序？

我讲解的是rerank逻辑，并非是融合。融合检索是指把多元的检索混合在一个排序里面。然后混合到一个排序之后，再rerank的时候用相对应的模型。

rag里面分为两种，一种是直接向量，向量采用余弦相似度匹配之后，会有一个对应的分数返回给你，还可以结合用户的输入加上跳回来的东西，进行rerank，因为直接向量检索召回过来的向量是没有语义的，这个时候把用户的query拿到，然后这两个之间再去做一个rerank，这个rerank其实返回的就是你的向量和你的query之间的相关量，会根据相关量进行一个打分，再去做一个排序，这个叫做rerank。

融合排序是另一种排序，向量检索返回的是他的一个评分，bm25返回的是另一个评分，他们是两个评分体系，比方说向量检索排名第一，但是关键词检索可能这个文档排到第十，最终的权重应该是多少，他俩之间应该有一个比重关系，怎么去计算，最终的排名是什么样子的？怎么去融合这个权重？对于不同的业务还有不同的权重，其实设计是不一样的。

7.query改写？rag改写？

要理解他的关键意思，比方说当用户输入我上面的说的是什么，其中的上面就是需要改写的，这种被称为指代消解，这种指代必须要融合上下文，必须把上下文结合起来才能理解。比方说商品退货和商品退款是不是一个意思？他流程最终的走向不一定是一个sop，其实这些都是因为一个用户query他可能能有多个标准才能成为一个答案，所以才会有query改写，因为改写完之后他能有多个query去匹配问题，会到处召回出不同的答案，可能改写完会有三个query，然后再一起去召回，召回完之后再去做一个rerank。

8.理清，提槽

理清，之后才根据路由分类的意图，叫做意图分类，然后分到体内里面，然后每一类里面后面有不同的模型去承接，那个属于理清。

提槽属于另一个维度的东西，比方说解决一个退款，你得知道订单号，需要知道订单号就需要一个提槽，需要这个就需要去和用户进行交互，我需要知道订单号，然后就需要去和用户进行交互，然后提槽成功，你就可以获取对应的订单号，之后就会走到下一步，把信息填完往后进行。

9.rag幻觉是怎么解决的？为啥rag能解决幻觉问题？

10.比方说有个天气助手，他只有北京天气，没有上海的天气，在prompt里面应该怎么去描述这个工具而能减少幻觉的问题？如果用户问上海的天气，应该怎么去解决减少幻觉的问题？提示词怎么去限制大模型没有幻觉呢？

举例，给了一个skill，说明他是一个天气助手，告诉一个城市，告诉你对应的天气，另一个skill里面是，告诉你我是一个天气助手，我只能查北京的天气，哪个幻觉会更大一点？

如果我问上海的天气的时候，第一种是调用工具，因为没有写限制，然后可能返回的就是上海地区不支持查询，而对于后面的工具，根本就不会调用，不会调用工具，然后模型的回答就是未知的，如果上海的天气有训练了，可能就会回答对上海地区不支持查询，但如果模型随便回答，可能就会出现了幻觉。第一种情况的工具已经调用了，大概率是没有幻觉的，第二种是不会调用这个工具，但既然不会触发这个问题，他就会自己去回答。

11.讲解一下ReAct框架？还有plan-execute？分别在什么场景？

任务拆分适合plan-execute模式，然后每个子任务会去尝试用react模式去执行一个任务的循环，来达到最后的计划。

12.实习是搭在什么平台上的？coze？

13.对openclaw的理解？

14.反问：美团评判智能体的指标？

首先得有评测体系，一个是智能体的评测体系，一个是大模型的评测体系，然后判断评的是什么东西，是端到端的评测还是什么？

如果是端到端的话，就需要去评测工具调用的准确度，评测安全，就需要评测红线，熔断机制，一般评测是根据线上的数据，然后根据线上指标的分布，优化一些prompt，他在各个指标里面他的表现能达到什么效果，能不能达到上线的标准？

15.手撕三数之和

第一次面大厂，感觉确实有很多理解不到位，慢慢加油。