写给工程同学的大模型初体验

背景概述：

为什么要写这个呢？虽然现在大模型很火，但对于我们工程同学来说，把大模型当一个黑盒用就好了。一开始我也是这么认为的。直到我在小红书做到了一个需求

在小红书的时候有一个需求是优化组内一个 agent 项目的响应和结果优化，这个 agent 是一个复杂的商业助手，并不是说技术很难，但要分析的广告业务很复杂，有上千个指标，好几种场景，prompt非常长，如果输出的效果不好，是没有人愿意用的。

用了很多优化手段，比如并发查数据等等。有一天这个项目的正职同学和我说，他和算法那边的同学交流，说可以把我们动态拼到 System prompt 的指标数据拼到用户的 query 里面，这样就可以利用模型的 kv cache 加快响应时间。

当时我是很惊讶的，后来又想，为什么这种优化思路我想不到呢？其实就是对模型的原理不了解，像 sql 调优，spark 调优这些，都是要对中间件的原理有了解，把模型当成一个中间件的话，肯定也要对模型有了解的。

所以有了这篇文章的想法，我学东西一直喜欢从实际项目入手，这次也是推荐一个实际项目，minimind

项目地址：https://github.com/jingyaogong/minimind

这个项目堪称大模型求职中的“黑马点评”，但是我们本质也不是要去找算法相关的工作，用这个项目体验模型训练的全流程以及模型的原理和组件还是非常不错的。并且不吃资源30系的显卡就可以部……署体验

体验模型训练全流程：预训练，SFT 监督微调，LoRA，强化学习等，也可以了解模型中的分词器，transfomer 架构，MoE 专家模型等

作者还有一个多模态版本的 VLM 模型，同样可以用来入门学习https://github.com/jingyaogong/minimind-v

如果本机的算力资源也不是很够的话可以去一些算力社区，蹭一点免费的算力体验一下模型训练部署的流程

#AI求职实录#

全部评论

推荐最新楼层

八股战士0offer

New York University Java

虽然但是，你想表达的应该是学习如何agent工程里的提示词工程，而不是训练或者微调模型，这基本上是两个不同的方向。我认为学习agent主要就两个东西：提示词工程和上下文工程。像你说的prompt caching这种优化怎么能想到，建议多读大模型供应商尤其是anthropic的博客，anthropic大概一年前就有很详细的博客讲最佳实践和实现了

1 回复分享

发布于昨天 05:04 美国

李橙子

长沙学院 Java

多学习一下大模型的项目也是挺好的

点赞回复分享

发布于昨天 15:29 湖南

创作小队长

牛客创作者运营

点赞回复分享

发布于 02-06 16:40 北京

02-06 21:46

西安财经大学算法工程师

过了，云智真tm香啊。😜

点赞评论收藏

02-06 11:56

快手_MLOps(实习员工)

学习 agent 开发不得不看的开源项目：deepagents

很多同学，在有了一定工程基础之后，想顺应现在的潮流去学习 AI Agent 的开发，但是又苦于没有入手的项目，网上的教程要么又臭又长，要么就是在割韭菜，很难学到真东西。但其实很多开源项目的实现就能让我们学到非常多的东西了，如果让我推荐的话，我一定会推荐 langchain 官方的这个基于 langgraph 的 deepagents项目地址：https://github.com/langchain-ai/deepagents为什么推荐这个项目呢，先来看看这个项目的特点通过文件系统进行智能体记忆，保存上下文，这个也是最近比较火的 skills，openclaw，字节的上下文数据库 openVik...

AI求职实录

点赞评论收藏

02-04 18:23

已编辑

百度_Java后端开发(实习员工)

顺丰一面

岗位：RAG平台研发无八股、无算法、全程聊项目实习面试官非常友好，面试过程中都是乐呵呵的遗憾是方向不对口，面试官也感觉出来了大概率挂时长：45min

点赞评论收藏

02-05 13:16

南京邮电大学 Java

为什么说Java+langchain4j/spring AI依旧是传统后端

一句话结论Java+langchain4j/spring AI依旧是传统Java后端，只是多了最基础的LLM调用能力Java + Spring AI / LangChain4j ≠ AI 应用开发本身它更多是 “传统后端在接入 AI 能力”，而不是 “以 AI 为核心的应用工程”。差异不在语言，而在“系统的控制权和复杂度在哪一侧”。一、从「系统主导权」看本质区别（这是最重要的一点）1️⃣ Java + Spring AI / LangChain4j 的定位系统主导权在：业务系统 / 后端架构LLM 在这里是：一个能力插件一个“增强模块”一个被调用的外部服务典型结构是： Controller ↓...

等闲_：其实agent开发和语言没关系，只要能稳定落地可观测，有业务价值的agent就是好agent，而各种语言的agentkit是企业基建必要的，是一些maas平台的agent模块的重要组成，需要提供零代码的能力让M端的同***营agent，所以不要过于纠结这些，真正要看的是模型工程化这整条链路，能做什么，怎么做更方便