大模型训练数据处理的文本去重和分类性能优化-阿里星-阿里巴巴2027届实习生

薪资面议
大数据开发工程师
杭州/北京
本科

投递时间:2026年4月24日-2027年4月24日

岗位职责
寻找顶尖的Data&AI复合人才,加入国际一流国内领先的阿里云自研大数据平台MaxCompute团队,共同构建和完善MaxCompute下一代AI原生的计算引擎。在这个团队,您将会和我们一同解决业界面临的超大规模网页文本数据的处理、去重、分类等计算任务的优化,从系统层面到算法实现层面,全面挑战和拓展业界在该领域计算效率的极限指标。 该职位会在MaxCompute Data+AI团队,基于分布式原生Python计算框架MaxFrame,进行大规模离线LLM推理在大规模文本处理场景中的研究和开发。 岗位职责包括: 1、大模型的量化调优,在较低内存和CPU算力的环境中,依然可以达到较高的token处理和生成速率; 2、常用推理框架(e.g. vLLM、Llama.cpp),在网页文本处理任务上的性能调优,特别是针对质量分计算或者打标场景的调优; 3、中低端GPU对于小参数LLM(1.5B/3B/7B/14B等规格)的推理性能调优。
岗位要求
1、计算机科学、人工智能、数学或相关领域的博士学历; 2、具备扎实的工程能力,优良的编程风格,熟悉C++/Python等面向对象编程语言,以及常用设计模式; 3、具备一定的性能分析和调优经验; 4、有过PB级网页文本的数据和清洗经验; 5、在OSDI/SIGMOD/VLDB等顶级系统领域/大数据领域的会议上发表过论文; 6、熟悉vLLM推理框架,并在开源社区有贡献。
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请 立即举报
阿里巴巴集团
电商
不需要融资
杭州市
查看其他 499 个职位