如何处理反爬?

自己做了个爬虫,每次面试都会被问到反爬的问题,但是我用的webmagic爬取的过程中没有遇到过反爬这个问题(可能爬的比较少),想问问大家怎么处理反爬的情况(爬取大量数据),除了***ip,这个貌似不稳。
全部评论
1.  明确网站是对单位时间访问量还是一段时间内访问总量做限制 2.  ip***池,轮询 3.  修改http头模拟浏览器访问 4.  从小到大逐步提高线程数目去探测网站的临界值
点赞 回复 分享
发布于 2018-05-14 23:29
这个。。百度一搜一大把的吧。。
1 回复 分享
发布于 2018-05-14 22:03
分布式爬取,设置间隔时间
点赞 回复 分享
发布于 2018-05-16 16:51
***IP 
点赞 回复 分享
发布于 2018-05-16 16:50
好像有个叫布隆过滤器的结构专门处理反爬虫
点赞 回复 分享
发布于 2018-05-16 02:08
速度不要太快啊 多线程模拟随机时间 一定不要太快了 拉别人数据还要速度 就真的。。
点赞 回复 分享
发布于 2018-05-14 23:16
常见的就是 换useragent+ip,ip验证有效过后再用,不稳定的情况具体看下,一般抓取失败的网页保存下来再次请求就好。一般建议降低请求次数,如果几天能够抓完应该也在可接受范围之内。
点赞 回复 分享
发布于 2018-05-14 22:42

相关推荐

四道编程、模拟两道、动态规划、二分查找,大家答得怎么样?
bowlec:第四题直接排序然后忘了可以二分所以直接遍历查找,居然0通过显示答案错误而不是超时,这是思路错了吗暴力也不至于0通过吧😭
投递携程等公司10个岗位 > 携程求职进展汇总
点赞 评论 收藏
分享
     好久没发牛客了,正好想着来字节提前实习刚好满一个月,那就写写自己的感受吧。    在没来之前对字节的印象只有两个。一是卷、二是福利待遇好。事实上也确实如此,字节在待遇上相比其他公司绝对是顶级的,比如食堂好吃免费、有房补、提前实习80%薪、免费零食和打折饮料等等福利。另一方面卷也是真挺卷的,刚来前一个星期倒没给我什么活干,然后第二周到现在都在一直拼命干活,非常忙,感觉一天都停不下来。要在组里干到5月中毕设答辩才回校,好在组里的同事人都很不错,很好相处,我mt对我也非常好,感觉我好菜,经常问他问题,他也会停下手头工作回答我。好像我在遇同事这方面运气一起不错。不管在快手、滴滴还是贝壳以及现在的字节,我所遇到的同事人都非常好。    我秋招其实是签了贝壳的,并且去年11月实习到今年年前才离职,在年后非常顺利的拿到字节offer然后选择了毁约,当时真的挺不好意思和贝壳hr以及组里的同事讲,好在他们人也很好,没说什么,也恭喜我进到一个更大的平台。    现在正是暑期和春招的时候,回顾一年前的我真的挺感慨的。近期刷牛客看到美团面经啥的,,感觉美团面试真的挺简单,如果那时候暑期我能面上美团会不会又是另一个结局呢。我其实挺中意美团的,不过美团暑期并没有给我面试机会,秋招美团金服4面后被挂也不像其他人能再度被捞复活。到了今年一月的时候,我偶然在脉脉上把简历给了一个美团面试官,顺利约上了面,在二面感觉发挥也没啥问题但再次被挂了。那时候也在面京东,结果二面结束后就秒挂。但凑巧的是,那天晚上9点二面结束,我看了官网秒挂后,和朋友在吐槽这事,朋友说让我去试试字节,结果刚说完字节hr就打电话来给我约面了。然后意外的顺利就拿到了offer,便第三次坐飞机来北京实习。    最后现在春招和暑期都在火热进行中,祝牛油都能收获满意的offer#字节跳动工作体验##春招##暑期#
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客企业服务