岗位关键词

毕业要求:2026届

投递时间:2026年3月12日-2026年6月19日

岗位职责
1. 遵照robots协议,对互联网公开网页和公开数据集进行采集; 2. 负责设计和开发分布式的网络爬虫,能独立解决实际开发过程碰到的各类问题(优化调度、并发、覆盖率等),提升数据抓取的效果和性能; 3. 负责网页信息抽取技术算法的研究和开发,提升数据抓取的效率和质量; 4. 负责爬取数据的去重、解库、爬虫系统的监控和异常警报; 加入我们,你将获得: 1.挑战前沿的爬虫技术:面对全网复杂多变的网站结构、动态渲染、反爬机制,设计高可用、智能化的爬取策略; 2.影响下一代AI大模型:工作直接决定大模型的数据质量,影响AI的理解能力、知识广度和推理能力; 3.快速成长的技术环境:接触大规模分布式爬虫、智能反反爬、自动化数据清洗等核心技术; 4.广阔的职业发展空间:可以深入爬虫架构、AI数据工程,或者转向大模型数据策略。
岗位要求
1.本科及以上学历,计算机相关专业, 熟悉Python/Java/Go/C++其中两种语言; 2. 掌握一种或多种爬虫库(如Requests、BeautifulSoup、Scrapy等); 3. 具备扎实的编码能力,精通网络通信,对HTTPS、TCP有深入理解; 加分项: 1. 熟悉主流爬虫框架工具,如Playwright、Puppeteer; 2. 掌握正则表达式、XPath、CSS等网页信息抽取技术; 3. 了解NLP基本技术,实际使用过如Fasttext、N-gram、Bert、GPT等算法和模型者优先。
北京
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请 立即举报
小米集团
硬件
已上市
北京 上海 深圳 南京 武汉
查看其他 208 个职位