如何处理反爬?

自己做了个爬虫,每次面试都会被问到反爬的问题,但是我用的webmagic爬取的过程中没有遇到过反爬这个问题(可能爬的比较少),想问问大家怎么处理反爬的情况(爬取大量数据),除了***ip,这个貌似不稳。
全部评论
1.  明确网站是对单位时间访问量还是一段时间内访问总量做限制 2.  ip***池,轮询 3.  修改http头模拟浏览器访问 4.  从小到大逐步提高线程数目去探测网站的临界值
点赞 回复 分享
发布于 2018-05-14 23:29
这个。。百度一搜一大把的吧。。
1 回复 分享
发布于 2018-05-14 22:03
分布式爬取,设置间隔时间
点赞 回复 分享
发布于 2018-05-16 16:51
***IP 
点赞 回复 分享
发布于 2018-05-16 16:50
好像有个叫布隆过滤器的结构专门处理反爬虫
点赞 回复 分享
发布于 2018-05-16 02:08
速度不要太快啊 多线程模拟随机时间 一定不要太快了 拉别人数据还要速度 就真的。。
点赞 回复 分享
发布于 2018-05-14 23:16
常见的就是 换useragent+ip,ip验证有效过后再用,不稳定的情况具体看下,一般抓取失败的网页保存下来再次请求就好。一般建议降低请求次数,如果几天能够抓完应该也在可接受范围之内。
点赞 回复 分享
发布于 2018-05-14 22:42

相关推荐

饥饿的长颈鹿就要上岸...:简历五项结构 简历只放五项内容,顺序和格式如下: 一、个人信息 只写名字、电话、邮箱 不写性别、年龄、籍贯、政治面貌、微信等额外信息 二、教育经历 格式:学校名称 | 学历 | 专业 | 就读时间 从左到右排列,一行写完 如果专业和岗位对口,写1-2行主修课程;不对口就不写 学历如果不占优势,可以把教育经历放到简历靠后的位置 三、实习/项目经历 如果没有实习经历,全部写项目经历 每条经历格式:项目名 + 岗位名 + 任职时间段 下面写三到五条工作内容 每条工作内容开头必须用四个字概括,加粗,后面跟一条完整描述 所有描述必须用STAR法则来写(情境-任务-行动-结果) 每一条都要有数据支撑和具体成果 四、个人优势 可以写获得的奖项、证书 如果奖项不够,就写你熟练掌握的技能 每条也要有具体数据或成果支撑,不能空泛堆砌 五、整体要求 一页纸,不要超过一页 个人信息只写名字加电话邮箱 贝贝试一下这个方式写简历,我虽然没收到offer,至少收到了好几轮面试
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务