米哈游27届实习-LLM算法实习生
工作职责
1、设计严谨和科学的针对post train model的benchmark,准确评估基础模型能力,设计模型能力优化方向,提升基础模型的social intelligence
2、设计和训练奖励模型,深度参与基础模型的后训练优化,持续解决reward hacking问题和扩大强化学习训练规模
3、研究Reward System,涉及但不限于LLM-as-Judge, Generative Reward Model, Agentic Reward Model, Sandbox等技术
任职要求
1、硕士及以上学位在读,计算机、人工智能等相关专业优先
2、深入了解LLM后训练,具备LLM Benchmark设计/奖励信号设计/强化学习训练项目经验者优先
3、具备良好的中英文阅读和鉴赏能力,有良好的沟通合作能力
4、熟练使用python语言和pytorch框架
加分项
1. 在ACM/ICPC,NOI/IOI,TopCoder等编程大赛上有获奖
2. 在后训练/模型评估有NeurIPS/ICML/ACL/EMNLP顶级论文发表,积极追踪大模型方向前沿进展和应用
3. 具备良好的文学素养,对游戏、影视、小说等人文和娱乐内容有浓厚兴趣
投递链接
https://jobs.mihoyo.com/?sharePageId=121176&recommendationCode=052BT&isRecommendation=true#/campus/position/7913
#米哈游##校招##内推##秋招##春招##游戏##llm#
1、设计严谨和科学的针对post train model的benchmark,准确评估基础模型能力,设计模型能力优化方向,提升基础模型的social intelligence
2、设计和训练奖励模型,深度参与基础模型的后训练优化,持续解决reward hacking问题和扩大强化学习训练规模
3、研究Reward System,涉及但不限于LLM-as-Judge, Generative Reward Model, Agentic Reward Model, Sandbox等技术
任职要求
1、硕士及以上学位在读,计算机、人工智能等相关专业优先
2、深入了解LLM后训练,具备LLM Benchmark设计/奖励信号设计/强化学习训练项目经验者优先
3、具备良好的中英文阅读和鉴赏能力,有良好的沟通合作能力
4、熟练使用python语言和pytorch框架
加分项
1. 在ACM/ICPC,NOI/IOI,TopCoder等编程大赛上有获奖
2. 在后训练/模型评估有NeurIPS/ICML/ACL/EMNLP顶级论文发表,积极追踪大模型方向前沿进展和应用
3. 具备良好的文学素养,对游戏、影视、小说等人文和娱乐内容有浓厚兴趣
投递链接
https://jobs.mihoyo.com/?sharePageId=121176&recommendationCode=052BT&isRecommendation=true#/campus/position/7913
#米哈游##校招##内推##秋招##春招##游戏##llm#
全部评论
相关推荐
点赞 评论 收藏
分享
