阶跃星辰算法研究员/Research intern(RL for AIGC方向)招聘
#牛客AI配图神器#招聘岗位:阶跃星辰算法研究员/Research intern(RL for AIGC方向)#实习##人工智能##阶跃星辰##大模型##校招#
岗位职责:
1、研发适用于视觉生成任务的文生图基座大模型和图像编辑大模型后训练算法RLHF,显著超越Stable Diffusion、Flux以及QWen-image等开源基座模型;
2、RLHF奖赏模型设计,以数据驱动,设计并研发从美学评分、指令遵循、文字渲染以及肢体优化等多个维度的reward model,提升并激发生成模型后训练上限;
3、RLHF强化学习算法研发,基于Diffusion/AR generation model生成过程构建更高效和稳定的强化学习系统,探索RLHF在视觉生成领域的scaling law。
岗位要求:
1、全职研究员要求两年左右视觉生成领域工作经验,实习生要求生成或者RL方向有相关的论文发表。了解自然语言/多模态大模型的基本原理,对于视觉生成领域的流行算法(包括但不限于GAN系列,VQ-VAE,Diffusion Model和AutoRegressive model系列等)有一手的实践经验,对深度强化学习的核心算法(如MDP, Policy Gradient, Q-Learning,TRPO,PPO和GRPO等)有深刻理解。有相关方向的顶会论文、知名开源项目或重要产品落地者优先;
2、优秀的编程能力,熟练使用pytorch,熟悉megatron分布式训练框架, 对OpenRLHF, ROLL以及VERL等开源RL框架熟悉更优;
3、熟悉AIGC应用数据准备的全流程,包括数据采集、清洗、标注等,对于如何人工合成高质量训练数据有深入的理解;
4、有强烈的责任心,良好的团队合作能力和跨团队沟通能力。
感兴趣的同学简历发送至邮箱:
岗位职责:
1、研发适用于视觉生成任务的文生图基座大模型和图像编辑大模型后训练算法RLHF,显著超越Stable Diffusion、Flux以及QWen-image等开源基座模型;
2、RLHF奖赏模型设计,以数据驱动,设计并研发从美学评分、指令遵循、文字渲染以及肢体优化等多个维度的reward model,提升并激发生成模型后训练上限;
3、RLHF强化学习算法研发,基于Diffusion/AR generation model生成过程构建更高效和稳定的强化学习系统,探索RLHF在视觉生成领域的scaling law。
岗位要求:
1、全职研究员要求两年左右视觉生成领域工作经验,实习生要求生成或者RL方向有相关的论文发表。了解自然语言/多模态大模型的基本原理,对于视觉生成领域的流行算法(包括但不限于GAN系列,VQ-VAE,Diffusion Model和AutoRegressive model系列等)有一手的实践经验,对深度强化学习的核心算法(如MDP, Policy Gradient, Q-Learning,TRPO,PPO和GRPO等)有深刻理解。有相关方向的顶会论文、知名开源项目或重要产品落地者优先;
2、优秀的编程能力,熟练使用pytorch,熟悉megatron分布式训练框架, 对OpenRLHF, ROLL以及VERL等开源RL框架熟悉更优;
3、熟悉AIGC应用数据准备的全流程,包括数据采集、清洗、标注等,对于如何人工合成高质量训练数据有深入的理解;
4、有强烈的责任心,良好的团队合作能力和跨团队沟通能力。
感兴趣的同学简历发送至邮箱:
全部评论
感兴趣的同学欢迎投递简历至邮箱:**********
相关推荐
点赞 评论 收藏
分享
vivo公司福利 369人发布