做 RAG 的小伙伴大概都被同一个东西卡住过:一份扫描件 PDF,或者一张截图 PDF,结果检索的时候怎么都搜不到内容。 我在做派聪明(PaiSmart,一个企业级 RAG 知识库)的时候就遇到过这个问题。 不过今天我找到了一个不错的解决方案,用 LlamaIndex 开源的 LiteParse,一条命令就能把扫描件里的文字 OCR 出来了,不需要 API Key,解析速度还很快。 这篇就来详细的讲一讲。 LiteParse 到底是什么、lit 命令怎么用、"空间文本解析"的思路,以及我是怎么把它接进派聪明的、踩了哪些坑。 系好安全带,我们粗粗粗发~ 01、LiteP...