首页 > 试题广场 >

如何设计一个网页爬虫系统?

[问答题]
如何设计一个网页爬虫系统?
设计合理即可,实现思路:使用bfs算法进行网站爬取;使用master节点作为控制节点控制work 节点进行网站爬取;使用分布式队列做任务调度;使用key-value存储(如redis)做网页判重
发表于 2015-05-05 14:55:50 回复(0)
这种问题其实没有什么标准答案,爬虫大多都需要根据具体网站具体设计。
发表于 2019-03-31 15:11:51 回复(0)
可以参考一下我的GitHub: https://github.com/Miss1nOctober/Python_Spider
发表于 2017-08-21 22:08:15 回复(0)