大模型转行记录(二)

前情提要:

笔者两个月前(24年7月6号)在知乎、小红书等平台发布了《大模型转行记录(一)》(牛客网原文:https://www.nowcoder.com/discuss/639025152000331776?sourceSSR=users),分析了软件开发行业过去与现状、大模型人工智能产业前景与现状,因此得出了“软件开发红利已尽,大模型产业方心未艾”的结论,结合从周围朋友打听到的信息,做出了向大模型产业转型的决定与尝试。现在两个月过去了,我来分享一下我的最新进展。

大模型岗位简历通过情况

简历挂掉的:

美团秋招(简历挂)、月之暗面秋招(简历挂)、百度秋招(简历挂)、RoboSense秋招(简历挂)、Minimax秋招(简历挂)、Minimax暑期实习(简历挂)、360实习(一直没反应)、百度(打电话跟我说岗位要求博士,叫我换岗位投)、美团秋招(简历挂)、字节豆包秋招(简历挂)、蔚来秋招(简历挂)

 

简历通过并进行下一步流程的:

商汤实习、快手秋招提前批、某研究所实习、某汽车公司实习、智谱AI

(截止至8月中旬的情况)

面试情况

7月下半月和8月上半月这一个月中面了十场左右,秋招和实习都有,C++软件开发和大模型各一半。

 

软件开发这边,米哈游秋招提前批(一面挂)、浪潮秋招提前批(没反应,估计挂了)、OPPO秋招提前批(笔试过,一面挂)。

大模型这边,商汤实习(一面后无后续消息)、快手提前批(一面挂)、某研究所实习(过)、某汽车公司实习(过)、智谱AI(一面挂)

 

大模型这边的面试感觉是,他们主要关注你做的项目,尤其是RAG和微调相关的,如果面试官是做这一块的话,他会问得比较深。然后在此基础上上会问一些大模型的基本知识。尤其是写在简历上的内容,对方会重点问。我第一场大模型面试就是没重视简历上写的技术,弄得第一场面试让双方都尴尬。目前来看,大模型这边比起我之前搞的C++客户端来说还是更缺人,C++客户端那边的一些岗位面试,给我一种在走过场的感觉。

 

不知道是互联网总体行情的原因,还是秋招提前批的原因,亦或者是我个人的原因,软件开发这边情况不是很好,有的面试就跟我聊天,聊完天之后转手就把我挂了(比方说OPPO)。大模型这边秋招我投的秋招正式岗大概一半被挂了简历,因为已经8月份了,所以实习岗位比较少。

 

本来之前还在犹豫要不要去实习的,但是时间已经到8月底了,已经是秋招高峰期了,在权衡之后还是决定把时间花在秋招上,因此大模型的实习就暂时不去了。

 

求职思路

今年上半年跟着实验室博士师兄学强化学习,在强化学习中有一个“行动-反馈-行动”的模型,我觉得对于个人发展很有启发意义。

“行动-反馈-行动”模型,就是你明确自己的目标之后先做一个尝试,然后根据这个尝试的反馈进行下一步的修正,不断地尝试获得不断的反馈,从而不断迭代自己的做法和策略。换句话说,就是一个事情先去做,再去改,如果等你准备好了再去,一是不能及时获取反馈,二是可能会失去窗口期的机遇。

应用到大模型这边,我是这么做的。先找了大模型岗位需要的技术栈,把他们先写在我的简历上,然后对我简历上的技术栈有一个最基本的浅显了解,就开始投简历。在经历了很多次挂简历之后,我经历了我的大模型方面的第一场一面——快手AI岗。这场面试很惨,很尴尬,面试官问了我好多问题我都答不出来。暴露出了一个基本问题就是我对简历上的东西都不熟。

后面我花了一些时间把简历上的知识搞定了,删除了一些我觉得又难价值又低的技术在简历上,增加了我背得比较熟的知识点上去。这样我就获得了我的第二份简历,几天后我开始投递我的第二份简历。后面迎来了第二场面试——商汤AIGC岗,做RAG的。面试还挺顺利的,对面没有为难我,简历上的东西我都答出来了,当然一旦他深入问,我就答不出来。虽然这场面试也挂了,但是面试官很好心地说了他对我的建议,还告诉了我需要补的重点:大模型这一块对矩阵的处理很多,这一块需要多多了解。另外,从他嘴里也看出RAG这一块确实在发展期的,尤其是对比我之前做的C++客户端相比的话。

再到后面研究所和汽车公司的实习岗就比较顺利了,我发了简历之后,对面稍微问了一下我基本上都答出来了。

没有拿到大厂大模型的Offer我觉得也在意料之中,毕竟我这边硬实力还是达不到,而且时间上也不是找实习的时候了。天时地利人和,我能拿到当下与自己实力相符的机会就已经很不错了。

 

2024年9月4日星期三 GeekPower极客力量深圳

#大模型#
全部评论
老哥这逆天改命的能力堪称一绝,今后必成大器!
4 回复 分享
发布于 2024-09-24 18:10 上海
校招还是社招
点赞 回复 分享
发布于 2025-01-09 13:58 广东
大佬要做rag?
点赞 回复 分享
发布于 2024-10-14 23:35 广东
大佬,想问下大佬月之暗面投的是社招吗,好像没看到校招,谢谢大佬
点赞 回复 分享
发布于 2024-09-26 18:06 北京
哥 我也想转大模型,能加个好友么
点赞 回复 分享
发布于 2024-09-06 18:37 江苏
个人原因
点赞 回复 分享
发布于 2024-09-05 17:07 浙江

相关推荐

04-09 18:05
门头沟学院 Java
一上来先是手撕,比较简答,大概做了5分钟。一、多模态 RAG 与检索评估多模态预处理中,图片在 RAG 系统里是如何向量化检索的?多模态预处理环节的技术难点是什么?如何杜绝跨场景召回相似步骤的问题,具体实现方式是什么?介绍评估精度和召回率所采用的框架,以及召回率的具体计算细节。该框架中精度和召回率的计算方式分别是什么,二者的核心区别是什么?能否只关注召回率而不关注精度,原因是什么?二、实习项目与意图识别介绍实习业务方向相关的意图识别模型的实现内容。意图识别模型具体能解决什么问题,结合实例说明模型效果提升的具体表现。实习项目中遇到的三个技术问题里,最难的是哪一个,具体难点是什么?实习项目的数据集是如何构造的?该实习项目的开发周期是多久,开发人员配置如何?三、代码生成项目与模型适配代码生成相关项目的开发目的是什么?该项目与相关经典框架解决的问题是否相同,核心区别是什么?相关经典框架为何不支持 Qwen 系列模型,具体问题是什么?如何让 Qwen 模型正常使用相关工具,具体实现方式是什么?思考模型与非思考模型的输出除标签外,还有哪些核心区别?如何解决 Qwen 思考模型产生错误工具调用、空工具调用的问题?项目中遇到的核心挑战是否与相关经典框架解决的问题一致?该项目是完全自研还是参考相关实现,具体做了哪些内容和思考?四、Agent 记忆体系(长 / 短期记忆)模型多轮对话的历史记录中,长期记忆和短期记忆由谁定义、如何区分?长期记忆和短期记忆的判断主体是谁,判断的指标是什么?长期记忆的维护需要哪些策略或算法,具体如何维护?长期记忆是否需要做处理,是直接保留对话内容还是总结后保存?长期记忆的总结工作由谁实现,总结的触发时机和算法是什么?结合发现的问题和采取的措施,继续介绍项目后续的开发内容和思路。模型调用搜索工具的优化实现效果如何,与未使用工具前的核心区别是什么?项目中状态机的能力具体是如何体现的?大模型如何感知状态机的当前状态?短期记忆的 5 轮对话指原始对话还是整理后的内容,短期记忆如何转化为长期记忆?触发短期记忆转化为长期记忆的条件是什么,如何结合短期记忆和已有长期记忆生长新的期记忆?长期记忆的淘汰算法是否为先进先出,该算法是否存在问题?针对长期记忆先进先出算法的潜在问题,是否有新的优化思路?长期记忆是否一定要淘汰,能否通过检索方式调取而非丢弃,该思路的可行性如何?长期记忆占用模型上下文窗口会导致输出窗口压缩,该问题的优化方向是什么?五、RAG 与代码助手落地项目中 RAG 的作用是什么,其调用时机是怎样的?该代码生成相关项目整体的技术难点是什么?现阶段各类大模型代码助手平台大规模落地使用的最大难点是什么,解决哪个核心问题才能实现规模化应用?如何解决大模型对大代码量项目理解不足、易出错的问题?代码助手在代码检索时,如何高效找到与问题相关的依赖并提供给大模型?现阶段为何少有框架做代码依赖相关的优化工作,核心原因是什么?若要解决代码依赖难以查找、模型无法理解整体代码库的问题,除构建图谱外还有哪些方法?六、模型训练与技术拓展介绍实习过程中做的模型后训练相关工作,具体实现方式是什么?基于 400 条回答不佳的真实数据,如何将其用于模型训练?仅靠 400 条数据难以训练出靠谱模型,如何将数据集扩展到 1 万条,具体的扩展过程是什么?介绍近期看过的技术相关文章,说明其核心内容和解决的问题。该技术框架与其他同类框架(如 Agent 相关框架)的核心区别是什么?介绍毕业论文的研究方向和核心内容。能否立即到岗实习,实习的可到岗时间是怎样的?
Agent面试会问什么?
点赞 评论 收藏
分享
04-09 17:45
门头沟学院 Java
一、自我介绍与项目深挖做一下自我介绍。简单讲一个你最有代表性的项目,你在其中解决的最关键问题是什么?结合实习或项目,做细节追问(工作流、职责、决策、挑战等)。二、Agent 与提示工程相关提示词模板是怎么设计与迭代的?你如何判断一个模板真的变好了?你们的 Agent 是单 Agent 还是多 Agent?为什么这么设计?有没有考虑过替代方案?Agent 的任务是怎么拆分的?拆分粒度是怎么决定的?上下文是如何构建的?你们怎么避免上下文过长或信息污染?如果上下文窗口不够,你会优先保留哪些信息?为什么?三、代码理解与单测生成(工程场景)做代码理解时,AST、调用关系这些信息是怎么用起来的?单测生成里,哪些代码不适合生成单测?你们是如何识别并过滤的?覆盖率高但测试质量很差,你见过吗?你们是如何解决的?mock 在单测里什么时候是必须的?什么时候反而会带来问题?如果一个函数同时依赖数据库和 RPC,你怎么让模型生成的单测稳定运行?你们如何评估生成单测的质量? 除了覆盖率,还有哪些指标有效?四、LLM 基础与 Transformer 细节LLM 的输入到底是什么?模型真正看到的内容包含哪些?self-attention 的核心作用是什么?为什么要拆成 Q、K、V?为什么 attention 能建模长距离关系?为什么需要 multi-head?attention 为什么可以看成动态加权?同一个 token 的 Q、K、V 为什么不相同?attention 复杂度很高,当上下文特别长时,你会怎么优化?模型产生幻觉的常见原因是什么?工程上有哪些方法可以降低幻觉?五、后端与系统基础Python 有多线程吗?GIL 是干嘛的?什么时候多线程才是有用的?讲一下 C++ 从源码到可执行文件的完整编译流程。六、算法题(手撕)给定一个数组 nums,计算所有子数组的中位数之和。定义:如果子数组长度为奇数:中位数 = 排序后中间的数。如果为偶数:中位数 = 排序后靠左的那个数。要求:计算所有子数组的中位数之和。
查看24道真题和解析
点赞 评论 收藏
分享
评论
14
41
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务