写给工程同学的大模型初体验

背景概述:

为什么要写这个呢?虽然现在大模型很火,但对于我们工程同学来说,把大模型当一个黑盒用就好了。一开始我也是这么认为的。直到我在小红书做到了一个需求

在小红书的时候有一个需求是优化组内一个 agent 项目的响应和结果优化,这个 agent 是一个复杂的商业助手,并不是说技术很难,但要分析的广告业务很复杂,有上千个指标,好几种场景,prompt非常长,如果输出的效果不好,是没有人愿意用的。

用了很多优化手段,比如并发查数据等等。有一天这个项目的正职同学和我说,他和算法那边的同学交流,说可以把我们动态拼到 System prompt 的指标数据拼到用户的 query 里面,这样就可以利用模型的 kv cache 加快响应时间。

当时我是很惊讶的,后来又想,为什么这种优化思路我想不到呢?其实就是对模型的原理不了解,像 sql 调优,spark 调优这些,都是要对中间件的原理有了解,把模型当成一个中间件的话,肯定也要对模型有了解的。

所以有了这篇文章的想法,我学东西一直喜欢从实际项目入手,这次也是推荐一个实际项目,minimind

项目地址:https://github.com/jingyaogong/minimind

这个项目堪称大模型求职中的“黑马点评”,但是我们本质也不是要去找算法相关的工作,用这个项目体验模型训练的全流程以及模型的原理和组件还是非常不错的。并且不吃资源30系的显卡就可以部……署体验

体验模型训练全流程:预训练,SFT 监督微调,LoRA,强化学习等,也可以了解模型中的分词器,transfomer 架构,MoE 专家模型等

作者还有一个多模态版本的 VLM 模型,同样可以用来入门学习https://github.com/jingyaogong/minimind-v

如果本机的算力资源也不是很够的话可以去一些算力社区,蹭一点免费的算力体验一下模型训练部署的流程

#AI求职实录#
全部评论
虽然但是,你想表达的应该是学习如何agent工程里的提示词工程,而不是训练或者微调模型,这基本上是两个不同的方向。我认为学习agent主要就两个东西:提示词工程和上下文工程。像你说的prompt caching这种优化怎么能想到,建议多读大模型供应商尤其是anthropic的博客,anthropic大概一年前就有很详细的博客讲最佳实践和实现了
4 回复 分享
发布于 02-07 05:04 美国
没必要看这个,数据比这些更重要,学习合成数据吧
1 回复 分享
发布于 02-09 19:02 山东
那看来我mac本地训练不了这个模型了 m1pro芯片的性能最多就20系显卡的水平
点赞 回复 分享
发布于 02-09 15:48 新加坡
确实了解一下中间的流程原理可能会有新的优化思路
点赞 回复 分享
发布于 02-09 15:05 浙江
多学习一下大模型的项目也是挺好的
点赞 回复 分享
发布于 02-07 15:29 湖南
点赞 回复 分享
发布于 02-06 16:40 北京

相关推荐

大家可能对wlb的定义和理解有很大误区 可能都拿上下班的时间去做唯一衡量 这个可以是外企国企去跟互联网做对比的优势 比如可能前者6.就能做到准点下班 后者可能12.还在公司战斗 但是在互联网里面找wlb 就不能只拿工作时间去衡量了对于实习生/校招生第一 工作强度是一方面因素 拿测开举例 有的同学可能任务就是做一些手工测试或者自动化 那一些同学可能做的是ai提效或者开发专项 所以强度不同感受也是不同的第二 你的mt/ld/同事的个人风格也会影响你的工作 比如你的mt可能苛刻甚至带有pua的风格 那我想你的工作感受可能是比较偏激的 假如你对接的研发都比较高效 能够按时执行你的冒烟用例也能及时的去修复你提的bug 那我觉得你在工作中应该充满干劲 相反 你的上游同学是一个延迟一个小时回你消息的人 频繁阻塞你的测试 那我想你心里也不会很好受第三 工作地点也很重要 比如南方人可能习惯杭州深圳成都一点 北方人可能更倾向北京一点 这个就看自身爱好也不绝对 比如我就很喜欢北京这个城市 我提前实习最主要的因素还是因为能在北京这个城市生活 因为主播不是北京人学校也不再北京 但是特别喜欢这个城市 所以在别人觉得base北京是减分项 在主播这里是加分的第四 公司整体的福利制度以及团建时间周期和团建内容也影响你的工作情绪 当然这个就不赘述 大家能切身实地的感受到最近的一些帖子新闻大家也看到了 所以趁着实习和提前实习的机会可以去实地感受到不同公司不同组的风格 当然 为了高薪那总得失去什么 为了轻松舒适也必然会失去什么
点赞 评论 收藏
分享
评论
18
46
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务