2020-06-02 15:52 已编辑华中农业大学前端工程师

关注

urllib.robotparser --- robots.txt 语法分析程序

此模块提供了一个单独的类 RobotFileParser，它可以回答关于某个特定用户代理是否能在 Web 站点获取发布 robots.txt 文件的 URL 的问题。

class urllib.robotparser.RobotFileParser(url='')
这个类提供了一些可以读取、解析和回答关于 url 上的 robots.txt 文件的问题的方法。

set_url(url)
设置指向 robots.txt 文件的 URL。

read()
读取 robots.txt URL 并将其输入解析器。

parse(lines)
解析行参数。

can_fetch(useragent, url)
如果允许 useragent 按照被解析 robots.txt 文件中的规则来获取 url 则返回 True。

mtime()
返回最近一次获取 robots.txt 文件的时间。这适用于需要定期检查 robots.txt 文件更新情况的长时间运行的网页爬虫。

modified()
将最近一次获取 robots.txt 文件的时间设置为当前时间。

crawl_delay(useragent)
为指定的 useragent 从 robots.txt 返回 Crawl-delay 形参。如果此形参不存在或不适用于指定的 useragent 或者此形参的 robots.txt 条目存在语法错误，则返回 None。

request_rate(useragent)
以 named tuple RequestRate(requests, seconds) 的形式从 robots.txt 返回 Request-rate 形参的内容。如果此形参不存在或不适用于指定的 useragent 或者此形参的 robots.txt 条目存在语法错误，则返回 None。

site_maps()
以 list() 的形式从 robots.txt 返回 Sitemap 形参的内容。如果此形参不存在或者此形参的 robots.txt 条目存在语法错误，则返回 None。
下面的例子演示了 RobotFileParser 类的基本用法:

>>> import urllib.robotparser
>>> rp = urllib.robotparser.RobotFileParser()
>>> rp.set_url("http://www.musi-cal.com/robots.txt")
>>> rp.read()
>>> rrate = rp.request_rate("*")
>>> rrate.requests
3
>>> rrate.seconds
20
>>> rp.crawl_delay("*")
6
>>> rp.can_fetch("*", "http://www.musi-cal.com/cgi-bin/search?city=San+Francisco")
False
>>> rp.can_fetch("*", "http://www.musi-cal.com/")
True

全部评论

推荐最新楼层

07-14 12:16

哔哩哔哩_开发工程师(搜索推荐)(准入职员工)

哔哩哔哩内推

啊一切都是命运之门的选择，8年b站老用户没想到能拿到offer,来b站两周了，简单说一下在阿b的感受吧 面试整体很丝滑，4.28hr面—4.29leader面—4.30上午面完晚上就发offer了 我猜是因为之前做过珀莱雅在B站渠道的媒介和综艺《萌探3》的pd，有商务的经验，整体比较匹配岗位所以过的很快 想了解面经的后面会发一个完整的笔记 1️⃣工作氛围：入职后感觉每天都很开心，部门氛围很好，工作也很有成长性。部门都很年轻，会耐心教工作内容，很多S级项目从策划到落地都可以参与，有不懂的及时提问，哥哥姐姐们都很好，每天都感觉进步一点点。 2️⃣工作时间：我们部门是11点上班8点下班，弹性打卡，基...

哔哩哔哩公司福利 761人发布

点赞评论收藏

分享

07-15 14:09

门头沟学院产品经理

总结我的奇葩面试经历

点赞评论收藏

分享

05-28 01:36

门头沟学院 Java

在深圳java开发应届生报价9k都要被😓了吗

在boss上投了个简历，因为在深圳我就报了9k的期望薪资，因为本人加起来三段实习经历总共小一年的实习时长，而且我目前的工作在佛山转正也有7.5k，所以我觉得这个价也正常吧，没想到就被hr发😅了，我发回去还阴阳我😂

永不遗忘：畅飞扬是吧，上黑名单 @牛客吹哨人

奇葩时刻大赏

点赞评论收藏

分享

06-07 18:28

东华大学 Java

继续干后端还是转行呢

牛油们能否给点建议我现在26届 因为小论文缘故 投递很晚才开始 五月中旬准备+开投 大厂端午才开投 到现在中大厂一个offer也没有 约面都很少 打听周围的情况 中大厂基本都满了 大厂根本没戏 因为开始地晚 八股算法啥的准备不是很充分问问老哥们以我简历这个情况继续刚java后端实习吗？还是转行呢以我目前转的话想转python后端和测试 测试挺心动的 听说容易一些容易约面 但是听说秋招测试岗位比后端少 以我简历情况好转测试么？救救孩子哥哥们

牛客81547822...：这简历找不到实习？有点夸张

点赞评论收藏

分享

07-15 11:35

门头沟学院 Java

京东26届秋招提前批offer

心里踏实多了，可以安心准备论文了

京东开奖153人在聊

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 26届的你们有几段实习？ #

25419次浏览 322人参与

# 机械人，你拿到几个offer啦 #

37758次浏览 312人参与

# 你被哪些公司秒挂过？ #

20936次浏览 189人参与

# 你后悔自己读研吗？ #

10670次浏览 186人参与

# 如何提高实习转正率？ #

8354次浏览 138人参与

# 设计人的面试记录 #

128753次浏览 1355人参与

# 月薪多少能在一线城市生存 #

12940次浏览 186人参与

# 面试体验感最好的是哪家？ #

222193次浏览 2370人参与

# 你认为哪些项目算烂大街？ #

10569次浏览 214人参与

# 当下环境，你会继续卷互联网，还是看其他行业机会 #

115506次浏览 802人参与

# 你以为的实习VS真实的实习 #

14039次浏览 142人参与

# 机械校招之路总结 #

92612次浏览 1891人参与

# 网申一定要掌握的小技巧 #

9855次浏览 66人参与

# 找工作时的取与舍 #

81698次浏览 584人参与

# 最难的技术面是哪家公司？ #

6869次浏览 61人参与

# 你小时候最想从事什么职业 #

103195次浏览 1786人参与

# 产品实习，你更倾向大公司or小公司 #

158741次浏览 1962人参与

# 双非能在秋招上岸吗？ #

219093次浏览 1159人参与

# 金三银四，你有感觉到吗 #

603703次浏览 5913人参与

# 机械制造岗投递时间线 #

23925次浏览 352人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务