相关推荐
2025-12-10 10:11
山东大学 Java 点赞 评论 收藏
分享
01-02 20:46
江南大学 C++ 点赞 评论 收藏
分享
2025-12-24 15:05
门头沟学院 Python
牛客60944174...:数据源会是多源,多数据格式(包括多模态、结构化、JSON,graph等),怎么把数据进行加载清洗处理,得到合适的数据,如果一篇文章很长,怎么做分块,是直接分块,还是重叠的分,为什么这个场景要这样,有没有更好的分块或者压缩方法。在召回阶段,你的query要怎么重构,例如用户问题是“这个是什么?”这样就是语义很不清晰的,要怎么把query重构成一个语义清晰的问句,才能在查找的时候提高命中率,以及你算完相似度之后重排和召回有没有什么优化,是直接根据向量相似度排序吗?有没有别的重排参数,这些都可以优化。除此外,你的RAG应该是每次调用LLM都用一次的吧,你能不能针对每一个场景写一个表,然后分别打包成MCP,让LLM自己决定要不要用RAG,用哪个RAG,怎么用RAG,这些都可以深挖,除此外,基于向量数据库的RAG有标准流程,你可以对照每个阶段,都做一些工作。希望我的分享对你有帮助。 点赞 评论 收藏
分享