算法打工人阿旺 level
获赞
299
粉丝
338
关注
0
看过 TA
2035
中山大学
2026
算法工程师
IP属地:山东
高级算法工程师,多模态/大模型/搜广推方向辅导
私信
关注
1.核心定义:它是一套可复用的 AI 能力集合,允许开发者将特定项目或工作流所需的功能封装起来,实现“一次构建,多处部署”。2.渐进式披露:这是 Skill 的核心机制,通过分层加载来优化上下文窗口的使用,降低 Token 成本并防止“上下文腐烂”:✅第一层(元数据):启动时仅加载 SKILL.md 的前置信息(Frontmatter),约 100 Tokens。✅第二层(详细指令):当智能体认为该技能相关时,加载 SKILL.md 的正文,建议在 5000 Tokens 以内。✅第三层(外部资源):仅在需要时加载子目录中的脚本或参考文档。3.与 MCP 的区别:MCP(模型上下文协议)主要关注工具连接(如连接 Notion 或 Gmail),而 Skills 更关注任务指令和工作流(如如何利用这些工具进行具体的业务分析)。此外,Skills 支持运行本地代码脚本,且可以使用纯英语编写,门槛更低。二、 如何创建自己的 Skill1. 手动创建步骤一个 Skill 至少需要包含一个 SKILL.md 文件,其目录结构如下:SKILL.md(必需):定义技能的行为和元数据。scripts/(可选):存放 Python、JavaScript 或 Bash 等可执行脚本。references/(可选):存放详细的参考文档。assets/(可选):存放模板、图像或静态数据。✴️编写 SKILL.md 的要求:前置信息(Frontmatter):必须包含 name(唯一标识符,仅限小写字母、数字和连字符)和 description(描述技能的作用及触发场景)。正文内容:使用 Markdown 编写详细的操作步骤、示例输入输出以及常见边界情况。2. 利用 AI 辅助创建(适合非技术人员)在 Claude.ai 等界面中,你可以使用内置的“技能创建器”:在设置(Settings)> 能力(Capabilities)> 技能(Skills)中确保已开启功能。启用名为 "skill-creator" 的元技能。3. 存储位置项目级技能:存储在项目的 .claude/skills/ 或 .github/skills/ 目录下。个人全局技能:存储在用户根目录下的 ~/.claude/skills/ 或 ~/.copilot/skills/ 中。📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
0 点赞 评论 收藏
分享
【一面】 1)介绍一个最能代表自己的项目2)项目里负责的边界是什么?哪些内容是亲手实现/验证的?3)电商领域预训练数据:低质过滤与去重会怎么做?用哪些简单指标快速判断数据质量?4) Pretrain 和 SFT 分别解决什么问题?5) Transformer 的基本结构怎么理解?6)多模态模型的大致结构是什么(图像编码器+连接层+ LLM )?最容易踩坑的点通常在哪里?7) SFT 数据如何更贴近业务:如何避免过度模板化?如何做基础的 train / test 去重来避免评测失真?8)对齐( RLHF / DPO 等)整体思路是什么:为什么需要偏好对/奖励信号?【二面】1)做过的最有影响力的一件事是什么?具体推动了什么变化?2)训练不稳定怎么排查( loss NaN 、 OOM 、吞吐下降)3) Long Context 常见思路有哪些?在业务里如何做"能看长文本但不太贵"的折中(摘要/分段/滑窗等)?4)如何做一套简单可执行的离线评测集?如何覆盖不同语言与类目?5)多模态场景怎么评估:如何检查"图文一致性/不编造信息"?优先加哪些自动化检查?6) Prompt /模板如何管理:如何版本化、如何回滚、如何避免一次改动导致整体波动?7) 手撕:实现一个最简单的 top - k 采样(给定 logits /概率,取 top - k 后重新归一化采样),并说明边界情况怎么处理。📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
0 点赞 评论 收藏
分享
1️⃣PPO 与 GRPO 在 token 级别进行优化在实际中我们通常用回复的完整内容来评价模型,但 PPO 与 GRPO 却用逐词的方法来训练。 PPO 和 GRPO 是对模型输出的 token 逐个优化,这种做法的本意是更精细的优化。但论文指出在大模型长文本的场景下,就容易引入噪声和奖励偏差,导致模型训练迷失方向。 GSPO 的核心思路就是把奖励和优化目标重新对齐,从给每个 token 打分,改为直接对整个句子打分。这种切换带来的好处具体为·训练更稳定。 GSPO 直接对整句进行训练,减少了词级波动带来的训练噪声。·训练更高效, GSPO 根据句子的分筛选样本,仅保留高质量纯净的样本参与优化,让模型更快收敛,效果更好。2️⃣GRPO 在MOE上难以收敛?由于 MoE 每次推理只激活少数几个专家模块,虽然效率更高,但新旧策略的 Router 可能发生变化,导致新旧策略激活了不同的专家。比如:·在旧策略下, Router 激活了【专家 A 】和【专家 C 】·在新策略下, Router 激活了【专家 B 】和【专家 D 】模型更新后,实际参与计算的专家组合可能完全不同,导致两个概率的生成基础存在结构差异,重要性比率失真急剧上升,所以 Clip 会被频繁地触发,导致梯度也严重失真。当高方差噪声渗入训练梯度后,还会模型不可逆崩溃,即使回退到历史检查点、调整裁剪范围或者修改生成长度后也无法恢复训练稳定性。理想的重要性比率本应仅反映同一模型结构下参数变化带来的输出差异,但时的比率还混入了不同专家组合的影响,就会带来高方差导致训练崩溃。3️⃣GSPO 可能存在什么不足?1.若以整个 response 的重要性权重均值作为裁剪依据,则少数极端值很容易拉高或拉低均值,可能会导致整个 response 被误弃。在很多情况下,只需裁剪少量异常 token 即可修复该响应,但 GSPO 的做法却直接丢弃全部信息,导致采样数据的利用率降低,造成数据浪费。2.即使在那些极端值不多、整体权重较为平缓的response 中, GSPO 仍保留所有 token 参与训练。这显然违背了 PPO - Clip 中引入 token mask 的初衷,那就是屏蔽的那些在 advantage 更新方向上已显著偏离原始策略的 token 。若继续使用这些 token ,反而可能干扰模型训练的稳定性。3.论文中还提到, GSPO 的裁剪 token 数量约为 GRPO 的100倍。原本 token - level 的裁剪比例极低(约0.1%),而在 response - level 方法中,只要一个 group 中有一个 response 被整体丢弃, clip ratio 就会急剧上升。📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
0 点赞 评论 收藏
分享
大模型浪潮下,不少26届同学想进军算法岗,却对岗位门槛、工作内容存在信息差。结合大半年实习经验,为大家揭秘真实行业情况,助力暑期与秋招规划。1️⃣大模型核心岗位划分大模型岗位主要分为两大方向:1. 大模型基座:涵盖数据、预训练、微调、对齐、训练/推理架构等工作。2. 大模型应用:包括数据、续训练、微调、对齐、推理部署、Agent、RAG等落地相关研发。2️⃣大模型岗位真实门槛很多人误以为无论文就无缘大模型,实际并非如此,实习与垂直经历比单纯论文更关键。1.基座岗位:学历要求高,基本为本硕双985,或国科大、北邮等强校,部分组要求博士;论文为硬性条件,至少1篇顶会起步,且方向需高度匹配;实习建议两段以上,优先阿里通义、字节豆包、百度文心、DeepSeek等头部机构。2.应用岗位:学历以本硕211及以上为主,是硕士主力赛道;论文非必需,仅为加分项,冲刺高薪计划可补充;更看重实习垂直性,无论文但项目对口,同样能拿到高薪offer。整体而言,求职时经历垂直匹配 > 含金量高低,弱相关经历加分十分有限。3️⃣大厂大模型工程师在做什么大厂大模型工作并非大众想象中整日训模型、写代码,大量时间用于数据处理、评测与沟通。基座组多做小幅度结构优化与实验;应用组99%工作基于开源模型做续训、微调,搭建RAG、Agent系统,核心是调参、优化数据配比、制定自动化评估方案,最终目标是业务落地,能提升线上指标的方案才是有效方案。想入局大模型,不必被论文门槛吓退,找准方向、深耕垂直项目,才是突围关键。
0 点赞 评论 收藏
分享

创作者周榜

更多
关注他的用户也关注了:
牛客网
牛客网在线编程
牛客网题解
牛客企业服务