1、RAG 流程RAG 一般分成离线和在线两部分。离线侧主要做文档接入、清洗、切分、向量化和索引构建。文档来源可以是产品文档、帮助中心、接口文档、历史问答、内部知识库。清洗之后按段落、标题或者固定窗口做切片,再用 embedding 模型把文本转成向量,写入向量数据库,同时保留 metadata,比如文档类型、时间、部门、权限标签。在线侧通常是用户问题进来后,先做 query 预处理,比如改写、纠错、意图识别,然后拿 query 去做检索。检索可以是向量检索、BM25 检索或者混合检索。召回到候选片段后,再做 rerank,把最相关的内容排到前面,最后拼接 prompt 和用户问题一起送给大模...