后训练数据实习生

300-500元/天
数据挖掘
上海
硕士
5天/周
最少3个月
岗位关键词
岗位职责
【我们是谁】 国内顶尖大模型创业公司,团队成员多来自清北复交浙新加坡国立大学,字节 TopSeed、DeepSeek、上海AI lab等,专注 AI 下半场的模型训练与 Agent 应用落地。 我们相信AI到了理解推理突破到能动性执行的奇点,致力于研究面向生产力的大模型技术。 【你可以做什么】 1.大模型数据全生命周期管理: *负责LLM预训练/后训练阶段(如SFT, DPO)的数据处理工作,包括数据收集、清洗、去重、标注、格式转换及质量评估。 *针对垂直领域或多模态数据,设计并实现高效、标准化的数据处理流程。 *分析数据分布,解决数据偏差、噪声等质量问题,确保训练数据的多样性和高可用性。 2.智能化数据采集与抽取: *设计和优化高效、智能化的爬虫系统,进行多源数据(文本、图像等)的采集,并能根据模型需求调整采集策略。 *负责爬虫的开发、维护及逆向工程,熟悉并能绕过常见的反爬技术(如动态加载、JS加密)。 *利用LLM或Agent技术,构建自动化、平台化的定向抓取与数据抽取能力。 3.工具与效率优化: *开发自动化数据处理工具、脚本和智能体(Agent),优化数据清洗和质量评估的效率和规模化能力。
岗位要求
【我们期望你】 1.编程与数据工程: 精通Python,熟悉数据处理库(如pandas, numpy),具备大规模数据处理框架(如Spark, Dask)经验者优先。 2.数据采集技术: 熟悉爬虫框架(如Scrapy, Selenium等),具备反爬、逆向工程经验。熟悉常见网络协议(HTTP/HTTPS)和接口抓取,能高效提取复杂数据。 3.大模型技术背景: 熟悉LLM训练和数据处理流程,包括SFT、DPO、RLHF等后训练技术。 4.具备数据质量控制流程的设计和实现经验。 【我们能给你】 来自顶尖大模型团队的深度指导与快速成长机会; 优秀AI前沿氛围 + 丰厚实习薪酬 + 团队福利; 实习表现优异者优先转正
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请 立即举报
上海奇绩智研智能科技有限公司
互联网
未融资
上海市
查看其他 4 个职位