1 . RAG 怎么评测,有哪些维度,那些指标RAG 的评测一般分成检索、生成、端到端三层。检索层主要看正确证据有没有被找回来,常用 Recall@K、HitRate@K、MRR、NDCG;生成层主要看答案对不对、是不是基于证据回答,常看 Answer Correctness、Faithfulness、Relevance、Completeness、Citation Accuracy;端到端层更偏业务效果,比如用户满意度、追问率、拒答率、时延和成本。真正做项目时不会只看最终答案,因为答案错可能是召回错、重排错、上下文拼接错,也可能是模型生成错。2. 数据集包括什么RAG 的数据集一般不只是知识库...