- 岗位职责
1、负责设计和开发分布式网络爬虫程序,进行多平台信息的抓取和分析工作;
2、负责网页信息数据抽取、清洗、消重等工作,提升平台的抓取效率;
3、参与设计爬虫核心算法和策略优化,熟悉采集系统的调度策略;
4、实时监控爬虫的进度和警报反馈。
- 岗位要求
1、掌握Python爬虫开发或JAVA爬虫程序开发,掌握(scrapy框架,java http组件)常用的爬虫框架,熟悉常用的基础⽹网络和解析类库
2、了解常⽤的爬⾍/反爬方法;
3、熟练MySQL、MongoDB、Redis至少一种数据库;
4、有实际爬虫经验或对前端相关技术javascript等有经验优先;
5、至少实习三个月,可长期实习者优先。