阿里通义千问万相大模型工程团队秋招
团队介绍:
达摩院系统AI实验室,致力于阿里大模型相关的系统化工程工作;魔搭,灵积,通义千问,每一款阿里出品的大模型产品都有我们团队的印记;而AI数据引擎团队,主要解决大模型训练过程中的数据生产问题。训练数据在大模型训练中是至关重要的,它是模型学习和泛化的基础;高质量、多样性和代表性的训练数据可以帮助模型获得更好的性能和更广泛的应用能力。我们团队的工作包含了海量预训练数据的采集、预处理,SFT/RLHF等模型alignment所需的精细数据的生产(标注、评测),训练数据集的体系化管理、索引、使用、增效,线上训练数据回流解决方案,等一系列大模型训练和部署过程中会遇到的数据生命周期相关问题;在这里你会深度发掘模型和数据之间的联系,迅速得接入大模型训练数据生产背后的魔鬼细节,将对大模型的相关认知持续推到新高度。
职位描述:
参与AI数据平台的研发工作。
1. 海量分布式采集系统:高并发系统的吞吐优化、线性扩容,降本增效,对于网站安全机制的深入理解。
2. 数据标注系统:高可用的API系统的开发和维护,二次开发体系的建设(AWS SageMaker GroundTruth),特定标注模版的开发和算法辅助优化(如视频自动跟踪,图片自动分割)。
3. 数据处理系统:高质量训练数据集的流程构建,百亿级向量去重算法的研发,向量提取模型的研发和部署,高质量数据集的构建(对标RedPands,Lainon5B,DataComp)。
4. 数据管理系统:多模态数据的存储体系构建,多模态检索系统的研发和优化,Python SDK的研发,高质量数据集的构建。
联系方式:
感兴趣的同学请私信我,或发送简历到邮箱
feiwu.yfw@alibaba-inc.com #阿里巴巴内推# #秋招#
达摩院系统AI实验室,致力于阿里大模型相关的系统化工程工作;魔搭,灵积,通义千问,每一款阿里出品的大模型产品都有我们团队的印记;而AI数据引擎团队,主要解决大模型训练过程中的数据生产问题。训练数据在大模型训练中是至关重要的,它是模型学习和泛化的基础;高质量、多样性和代表性的训练数据可以帮助模型获得更好的性能和更广泛的应用能力。我们团队的工作包含了海量预训练数据的采集、预处理,SFT/RLHF等模型alignment所需的精细数据的生产(标注、评测),训练数据集的体系化管理、索引、使用、增效,线上训练数据回流解决方案,等一系列大模型训练和部署过程中会遇到的数据生命周期相关问题;在这里你会深度发掘模型和数据之间的联系,迅速得接入大模型训练数据生产背后的魔鬼细节,将对大模型的相关认知持续推到新高度。
职位描述:
参与AI数据平台的研发工作。
1. 海量分布式采集系统:高并发系统的吞吐优化、线性扩容,降本增效,对于网站安全机制的深入理解。
2. 数据标注系统:高可用的API系统的开发和维护,二次开发体系的建设(AWS SageMaker GroundTruth),特定标注模版的开发和算法辅助优化(如视频自动跟踪,图片自动分割)。
3. 数据处理系统:高质量训练数据集的流程构建,百亿级向量去重算法的研发,向量提取模型的研发和部署,高质量数据集的构建(对标RedPands,Lainon5B,DataComp)。
4. 数据管理系统:多模态数据的存储体系构建,多模态检索系统的研发和优化,Python SDK的研发,高质量数据集的构建。
联系方式:
感兴趣的同学请私信我,或发送简历到邮箱
feiwu.yfw@alibaba-inc.com #阿里巴巴内推# #秋招#
全部评论
m
m
大家不要光m呀,欢迎大家找我聊聊


m
m
相关推荐
03-24 02:36
广东工业大学 C++ 点赞 评论 收藏
分享
03-19 17:53
武汉大学 算法工程师
暴杀流调参工作者:春招又试了一些岗位,现在投递很有意思,不仅要精心准备简历,投递官网还得把自己写的东西一条一条复制上去,阿里更是各个bu都有自己的官网,重复操作无数次,投完简历卡完学历了,又该写性格测评、能力测评,写完了又要写专业笔试,最近还有些公司搞了AI辅助编程笔试,有些还有AI面试,对着机器人话也听不明白录屏硬说,终于到了人工面试又要一二三四面,小组成员面主管面部门主管面hr面,次次都没出错机会,稍有不慎就是挂。
卡学历卡项目卡论文卡实习什么都卡,没有不卡的😂 点赞 评论 收藏
分享
携程成长空间 146人发布