米哈游27届实习-LLM算法实习生

工作职责
1、设计严谨和科学的针对post train model的benchmark,准确评估基础模型能力,设计模型能力优化方向,提升基础模型的social intelligence
2、设计和训练奖励模型,深度参与基础模型的后训练优化,持续解决reward hacking问题和扩大强化学习训练规模
3、研究Reward System,涉及但不限于LLM-as-Judge, Generative Reward Model, Agentic Reward Model, Sandbox等技术

任职要求
1、硕士及以上学位在读,计算机、人工智能等相关专业优先
2、深入了解LLM后训练,具备LLM Benchmark设计/奖励信号设计/强化学习训练项目经验者优先
3、具备良好的中英文阅读和鉴赏能力,有良好的沟通合作能力
4、熟练使用python语言和pytorch框架

加分项
1. 在ACM/ICPC,NOI/IOI,TopCoder等编程大赛上有获奖
2. 在后训练/模型评估有NeurIPS/ICML/ACL/EMNLP顶级论文发表,积极追踪大模型方向前沿进展和应用
3. 具备良好的文学素养,对游戏、影视、小说等人文和娱乐内容有浓厚兴趣

投递链接
https://jobs.mihoyo.com/?sharePageId=121176&recommendationCode=052BT&isRecommendation=true#/campus/position/7913

#米哈游##校招##内推##秋招##春招##游戏##llm#
全部评论

相关推荐

03-04 14:31
门头沟学院 Java
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务