03-30 15:01 已编辑牛客运营

发布于陕西

关注

AI项目：用RAG做智能问答助手

非常入门级的项目，适合出入AI的小白跟做

一、这个项目能做什么？

你输入一个 GitHub 仓库的 URL，系统会：

用 gitingest 把整个仓库转成 Markdown 文本
用 LlamaIndex 对文本做向量化索引（Embedding + VectorStore）
用本地 Ollama 模型回答你关于这个仓库的任何问题

比如你可以问：

"这个项目的核心架构是什么？"
"main.py 里的 process 函数做了什么？"
"这个项目用了哪些依赖？"

二、技术栈一览

组件	工具	作用
前端	Streamlit	聊天界面
RAG 框架	LlamaIndex	文档索引+检索+问答
仓库解析	gitingest	GitHub 仓库→Markdown
本地大模型	Ollama + Llama 3.2	推理引擎，无需 API
向量模型	BAAI/bge-large-en-v1.5	文本嵌入

三、环境搭建（10 分钟）

Step 1：安装 Ollama

去 https://ollama.com 下载安装，然后拉模型：

ollama pull llama3.2

验证：

ollama list
# 应该看到 llama3.2

Step 2：安装 Python 依赖

pip install gitingest llama-index llama-index-llms-ollama \
  llama-index-embeddings-huggingface streamlit python-dotenv

Step 3：克隆项目

git clone https://github.com/patchy631/ai-engineering-hub.git
cd ai-engineering-hub/github-rag

四、核心代码解析

整个项目只有一个核心文件 app.py（约 180 行），我们拆解关键部分：

（1）仓库解析——把 GitHub 仓库变成文本

from gitingest import ingest

summary, tree, content = ingest(github_url)
# summary: 仓库概要
# tree: 文件目录树
# content: 所有代码拼接成的 Markdown

一行代码就能把整个仓库抓下来转成可索引的文本，这是整个 RAG 管线的数据源。

（2）向量索引——让 AI "记住" 代码

from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
from llama_index.core.node_parser import MarkdownNodeParser

# 加载文档
loader = SimpleDirectoryReader(input_dir=content_path)
docs = loader.load_data()

# 用 Markdown 格式切分
node_parser = MarkdownNodeParser()

# 创建向量索引
index = VectorStoreIndex.from_documents(
    documents=docs,
    transformations=[node_parser],
    show_progress=True
)

这里做了三件事：读文件 → 按 Markdown 标题切块 → 用 Embedding 模型编码成向量存入索引。

（3）问答引擎——检索 + 生成

qa_prompt = """
You are an AI assistant specialized in analyzing GitHub repositories.

Repository structure:
{tree}

Context information:
{context_str}

Query: {query_str}
Answer: """

query_engine = index.as_query_engine(streaming=True)
query_engine.update_prompts({
    "response_synthesizer:text_qa_template": PromptTemplate(qa_prompt)
})

LlamaIndex 会自动：用户提问 → 向量检索最相关的代码片段 → 拼上 Prompt → 发给 Ollama 生成回答。

（4）Streamlit 聊天界面

if prompt := st.chat_input("What's up?"):
    response = query_engine.query(prompt)
    for chunk in response.response_gen:
        full_response += chunk  # 流式输出

五、运行效果

streamlit run app_local.py

浏览器会打开 localhost:8501，在侧边栏输入仓库 URL，点 "Load Repository"，然后就可以聊天了。

六、可以怎么改进？（面试加分项）

如果你想在这个基础上做项目展示或面试作品，推荐几个方向：

换更强的模型：把 llama3.2 换成 qwen3 或 deepseek-v4，效果显著提升
加 Reranker：在检索后加一层重排序（llama-index-postprocessor-cohere-rerank），提升回答精准度
支持多仓库对比：同时加载两个仓库，问"A 和 B 的架构有什么区别"
加缓存：用 Redis 缓存已解析的仓库，避免重复下载
部署上线：用 Streamlit Cloud 或 HuggingFace Spaces 免费部署

七、学到了什么？

通过这个项目，你实际练习了：

RAG 全流程：数据采集 → 文本切分 → 向量化 → 检索 → 生成
LlamaIndex 核心 API：VectorStoreIndex、QueryEngine、PromptTemplate
本地大模型部署：Ollama 安装和调用
Streamlit 快速原型：聊天界面搭建

这些都是 AI 工程师面试的高频考点，动手做一遍比看十篇八股文有用。

项目地址：https://github.com/patchy631/ai-engineering-hub/tree/main/github-rag

#AI项目实战#

全部评论

推荐最新楼层

豁达的母单花离上岸不远了

华南师范大学 Python

项目运行起来为什么会输入任何正确且内存不大的仓库url都会显示Failed to process repository:

点赞回复分享

发布于昨天 19:55 广东

03-21 14:59

广西大学算法工程师

影石 AI Agent 开发一面

1、RAG 流程RAG 一般分成离线和在线两部分。离线侧主要做文档接入、清洗、切分、向量化和索引构建。文档来源可以是产品文档、帮助中心、接口文档、历史问答、内部知识库。清洗之后按段落、标题或者固定窗口做切片，再用 embedding 模型把文本转成向量，写入向量数据库，同时保留 metadata，比如文档类型、时间、部门、权限标签。在线侧通常是用户问题进来后，先做 query 预处理，比如改写、纠错、意图识别，然后拿 query 去做检索。检索可以是向量检索、BM25 检索或者混合检索。召回到候选片段后，再做 rerank，把最相关的内容排到前面，最后拼接 prompt 和用户问题一起送给大模...

AI-Agent面试实战...

点赞评论收藏

分享

04-14 17:53

已编辑

外国留学生2年级，做了LLM/RAG项目，投了80+实习没人回，求大佬指点+项目评估

中国石油大学（北京）计算机专业外国留学生大 二升大三 项目：JARVIS-LLM QLoRA微调Phi模型 RAG评估系统 GitHub代码开源：https://github.com/Drgurbanow/jarvis-llm问题： BOSS投了80+大模型实习。只有1个HR让 我发简历，发完没下文。其余全部已读不回。 签证：合法学生签证，学校可配合办实习手续。 求指点： 1.以我现在的水平，项目够不够找实习？ 2.代码有什么问题？怎么改进？ 3.哪些公司愿意要外国留学生？ 谢谢!

点赞评论收藏

分享

不愿透露姓名的神秘牛友

03-27 13:22

AI时代找公司 ?

想投身AI领域，。首选自然是头部大厂，如字节、阿里、腾讯、百度等，它们业务场景多元、算力资源雄厚，适合追求平台与稳定性的技术人才。其次，关注那些弄大模型 的 非头部大厂—— 智谱华章、月之暗面、Minimax、百川智能、阶跃星辰，这些明星创业公司技术前沿、氛围灵活，往往能让你更快接触到核心研发。然后还有那些传统行业的AI部门，比如车企（蔚来、理想）、金融、智能制造等领域，它们正面临深度数字化转型，AI人才需求旺盛且场景落地扎实。最后，像商汤、科大讯飞这类深耕多年的AI企业，技术积累深厚，同样是值得考虑的方向。选对公司，既要看赛道，也要看与自身发展节奏的匹配度。#牛客AI配图神器#

找AI工作可以去哪些公司...

点赞评论收藏

分享

03-25 16:08

沈阳工业大学测试开发

真产出，但比较特别

暑期实习时我是坐mt旁边的，所以mt更信任我一些，一个测试任务分给其他两名实习生之后，没过一会mt也让我做，后面他只是粗略看下其他实习生的数据，最后直接用我的数据，mt跟我说他觉得那两个实习生干活比较马虎

你的实习产出是真实的还是...

点赞评论收藏

分享

03-24 14:36

黑龙江大学 Java

AI应用开发岗，简历怎么写才能脱颖而出？

最近帮几个朋友改过简历，发现大家的简历普遍存在一些问题:技术栈简单罗列，不能友好的引导面试官的提问，并且体系混乱，岗位jd针对性不强项目多而杂或者是少且不精，重点不突出，没有明确的数据指标，或数据指标严重失真项目的选取过于陈旧化，仍然停留在数年前已经几乎人手一份的项目，差异性不足。针对发现的这些问题，我总结了一些针对 AI 应用开发岗的通用思路，分享给大家。一 . 整体结构怎么安排AI 应用岗介于算法和工程之间，简历结构建议：基本信息 → 教育背景→ 实习经历→项目经历 →技术栈 。项目经理往前放，原因很简单——HR 看简历平均 6 秒，先让他看到你经历过什么，有什么突出的差异化能力，建议放 ...

Musennnn：开源项目链接: https://github.com/Musenn/finrpa-enterprise 金融垂直项目，里面包含了面试QA，简历写法以及每日总结，希望大家可以给个star

点赞评论收藏

分享

评论

1

8

招聘动态

AI网申助手

网申字段一键填写

龙湖集团数字科技平台

2026届春季招聘&实习生招聘

米哈游2026校园招聘

应届生春招&全年实习生专项

招商银行信用卡中心

2027届暑期训练营

阿里巴巴集团

2027届实习生校园招聘

正浩创新EcoFlow

2026届春季校园招聘

招商银行数字金融训练营

火热报名中

联想

27届暑期实习

厦门银行

2026届春季校园招聘

联想

26届补录

全站热榜

更多

创作者周榜

更多

正在热议

更多

# HR面都在聊什么？ #

16503次浏览 188人参与

# 网易笔试 #

164688次浏览 809人参与

# 从投递到OC，你用了多久 #

28241次浏览 295人参与

# 你的第一家实习公司是什么档次？ #

70871次浏览 337人参与

# 哪些公司面试还在问八股？ #

16175次浏览 157人参与

# 博世求职进展汇总 #

18772次浏览 64人参与

# AI时代还有必要刷leetcode吗？ #

40648次浏览 485人参与

# 字节7000实习来了，你投了吗？ #

39249次浏览 282人参与

# 金三银四，你的春招进行到哪个阶段了？ #

32744次浏览 314人参与

# 你今年的平均薪资是多少？ #

221596次浏览 1052人参与

# 每个月的工资都是怎么分配的？ #

96933次浏览 697人参与

# 想从事Agent应该学习哪些技术？ #

10543次浏览 333人参与

# 有哪些公司在面试时考察AICoding？ #

22812次浏览 390人参与

# 大学生该如何认清当下的就业环境？ #

163946次浏览 897人参与

# 铜五铁六真的存在吗？ #

55810次浏览 335人参与

# 运营人求职交流聚集地 #

242427次浏览 1119人参与

# 26届春招投递记录 #

4115次浏览 45人参与

# 哪些公司开春招了？ #

118371次浏览 627人参与

# 校招阶段，学历VS技术哪个更重要？ #

66201次浏览 352人参与

# 我的求职进度条 #

1147332次浏览 8330人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务