没有AI背景如何快速转大模型

首先你要会python(不需要熟练,只要用python写过简单项目)
其次你要对算法的通用训练流程有个概念
学历至少211,这决定你能不能过简历筛选
 我们的目的就是以最低的时间成本快速过面,因此首先拆解一下面试组成部分
 常规面试时间一个小时,40分钟简历面+20分钟笔试+反问环节 
简历面主要考项目和八股。你最好有两个相关的项目,可以把四十分钟撑满;或者有一个充实的项目,可以经得住面试官拷打;如果项目都很浅很简单,那你需要对八股掌握的滚瓜烂熟。
对面试者来说,问项目意味着自己掌握主动权,我们可以把自己的优势在项目里体现(比如可以在数据环节做复杂的设计,在调参上做设计,在训练流程上体现自己的独特insight),也可以通过项目提到的内容给自己划八股重点(一般提到数据就会问数据合成方法,提到微调就会问了解哪些微调方法和框架,提到rl就逃不开ppo grpo还有一些更新的等,提到rag会问检索 embedding,提到agent会问架构、memory等)。 
八股不是所有都考。我遇到过,力扣原题、transformer架构、KL散度这些神经网络公式的,还有数据处理的、设计prompt的等等。不过一般难度都不会很大,力扣的简单中等题做个大概,transformer和神经网络的经典实现看一看,其他的有一些些基础之后临场基本都能做出来。
 综上,时间有限:项目 >> 八股 = 力扣 
项目怎么找? 网上有很多博主推荐项目,无非就是sft+rl,但我建议自己找一个研究背景,设计自己的数据格式,然后套那些技术手段(很多项目其实被做烂了,同质化很严重)。大概写一个项目的雏形出来,可以扔给llm跟他对话,让它充当面试官提问题。 
八股怎么找? 最快的方式就是找各种面经,记录问题,然后自己借助大模型学答案,不要试图抱着一本书从头看到尾。 
大概准备的差不多70%之后就抓紧去面试,面试不要怕编的项目被拆穿、也不要怕答不上来面试官的问题尴尬,抱着学习的心态去面试,不要抱着通过的心态去面试。 #AI时代的工作 VS 传统时代的工作,有哪些不同?#
全部评论
除了sft+rl的还有别的吗
点赞 回复 分享
发布于 01-30 18:05 四川
学到了
点赞 回复 分享
发布于 01-30 18:03 北京
不是92没机会吗
点赞 回复 分享
发布于 01-30 18:02 山东

相关推荐

头像
03-03 15:53
已编辑
黑龙江大学 Java
在当前开源项目极为丰富的背景下,付费资源并不一定意味着最前沿的技术优势,在具体执行层面展示出自己的独特价值,才是简历上最重要的加分项。1. WebMCP — 让网站主动告诉 AI 该怎么操作AI 操作浏览器的方案一直靠"猜"——截图识别、DOM 解析,错误率 15-30%。WebMCP 反过来,让网站自己声明能做什么,AI 直接调用结构化接口,准确率接近 100%。Chrome Canary 已实装。企业内部系统的 WebMCP 适配目前几乎没人做,是明确的蓝海。推荐理由:简历上写的不是"我会用某个框架",而是"我在标准刚发布时就做了企业适配&...
书海为家:#人脑vsAI# 尽管深度学习的最初灵感来源于人类的大脑,但二者的运作方式截然不同:深度学习所需要的数据量远比人脑所需要的多得多。可是一旦经过大数据训练,它在相同领域的表现将远远超过人类(尤其是在数字的量化学习,例如挑选某人最可能购买的产品,或从100万张脸中挑选最匹配的一张)——相对来说,人类在同一时间内只能把注意力放在少数几件事情上面,而深度学习算法却可以同时处理海量信息,并且发现在大量数据背后的模糊特征之间的关联,这些模糊特征不仅复杂而且微妙,人类往往无法理解,甚至可能不会注意到。 虽然深度学习拥有人类所缺乏的并行处理海量数据的“绝技”,但不具备人类在面对决策时独一无二的汲取过去的经验、使用抽象概念和常识的能力。 与人类相比,深度学习想要充分发挥作用,离不开海量的相关数据、单一领域的应用场景以及明确的目标函数,这三项缺一不可,如果缺少其中任何一项,深度学习将无用武之地。
AI求职实录
点赞 评论 收藏
分享
很多人问我如何准备大模型的面试,分享下我的经验,针对两种情况:1. 有大模型实习2. 无大模型实习针对无大模型实习的情况,我建议先找一段中厂实习为主,比如 zhipu、Minimax (当然有大厂进大厂)这些,相对容易进,尽量积累大模型实习经历。针对有大模型实习的情况,复习内容为:1. 常规八股(transformer、bert 等)2. 最新八股(GQA 等)3. 技术报告(一定要自己看原PDF,目前推荐 DeepSeekV3, R1, kimi1.5, Minimax-01, Qwen2.5, Qwen2.5-VL)4. 手撕 Leetcode:Hot1005. 手撕模型,比如 MHA 这些首先是常规八股和最新八股,这一部分可以自己找找网上资料,整理好的,背。然后是技术报告,目前推荐的内容有:1. DeepSeekV3:必读2. DeepSeekR1:必读3. Kimi1.5:选读4. Minimax-01:选读,据我所知最长上下文模型(外推到 4M,不过好像被 LLama4 的 10M 超过了)5. Qwen2.5:必读6. LLama3.1:必读7. Qwen2.5-VL(如果简历有多模态内容):选读重点关注:1. 阶段训练(预训练几段、Post-training 几段?上下文用了多少?数据配比是什么?)2. 模型创新点(MHA 创新是什么?作用是什么?)3. 上下文优化创新点(一般是优化显存和阶段训练)4. 多模态优化创新点(简历有多模态内容)5. 几个模型不同之处(比如 Qwen2 和 Qwen2.5 的不同之处)最后是手撕,Leetcode 只刷 Hot100 够了,模型手撕建议关注(我目前会的):1. MHA2. LayerNorm3. Transformer Encoder (MHA+LayerNorm+FFN)4. PE(绝对位置编码)5. ROPE6. SwiGLU7. RmsNorm每次面试前快速过一遍就 ok 了。
查看19道真题和解析
点赞 评论 收藏
分享
评论
2
12
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务