2021-03-01 19:17 已编辑吉林大学

关注

爬虫第6节

网络爬取协议

得到一个网页爬取的协议

import requests
url = "https://www.baidu.com/robots.txt"
r = requests.get(url)
print(r.text)

爬虫实例1

爬取一个固定网页的信息

#商品网页爬取

import requests
url = "https://item.jd.com"
#具体商品 https://item.jd.com/100014323002.html
#<script>window.location.href='https://passport.jd.com/new/login.aspx?ReturnUrl=http%3A%2F%2Fitem.jd.com%2F100014323002.html'</script>

try:
    kv = {'user-agent' :'Mozilla/5.0'}
    r = requests.get('https://item.jd.com/100014323002.html',headers = kv)
    print(r.status_code) #爬取状态
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    #print(r.text)
    print(r.text[:1000]) #[:1000] 截取前1000个字符
except:
    print("爬取失败")

爬虫实例2

网站阻止以爬虫形式获取信息

#网页爬取，网站阻止爬虫行为访问

import requests
url = "https://www.amazon.cn/dp/B088BJ8HVL/ref=sr_1_1?brr=1&dchild=1&qid=1613541616&rd=1&s=digital-text&sr=1-1"

try:
    kv = {'user-agent' :'Mozilla/5.0'}
    r = requests.get(url,headers = kv)
    print(r.status_code) #爬取状态 若是503 则该网站拦截爬虫行为的访问，需要加上用户信息，改为浏览器访问
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    #print(r.text)
    print(r.text[:1000]) #[:1000] 截取前1000个字符
except:
    print("爬取失败")

爬虫实例3

根据一个关键词获取与之相关的信息

#关键词爬取

import requests

try:    
    kv = {'wd':'Python'}
    r=requests.get("http://www.baidu.com/s",params=kv)
    print(r.request.url)
    r.raise_for_status()
    print(len(r.text))
except:
    print("爬取失败")

爬虫实例4

爬取网络的某个信息并进行存储

#网络图片爬取并保存本地

import requests
import os

url = "https://ss0.bdstatic.com/70cFuHSh_Q1YnxGkpoWK1HF6hhy/it/u=2032926573,1024357327&fm=26&gp=0.jpg"
root = "D://pics//"
path = root + url.split('/')[-1]

try:
    if not os.path.exists(root):
        os.mkdir(root)
    if not os.path.exists(path):
        r = requests.get(url)
        with open(path,'wb') as f:
            f.write(r.content)
            f.close()
            print("文件保存成功")
    else:
        print("文件已存在")
except:
    print("爬取失败")

爬虫实例5

获取一个IP地址的归属地

# IP归属地查询

# https://m.ip138.com

import requests

#url = "https://m.ip138.com/iplookup.asp?ip="

url = "https://m.ip138.com/iplookup.asp?ip=202.204.80.112"

ip ="202.204.80.112"

kv = {'user-agent': 'Mozilla/5.0'}#不进行身份更改会造成爬取失败
try:
try:
    r = requests.get(url,headers=kv)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text)
except:
    print("爬取失败")

全部评论

推荐最新楼层

一笑而过2222

昨天 20:59

已编辑

中山大学计算机类

1. 问题：`volatile` 关键字的作用是什么？     答案：`volatile` 关键字用于指示编译器不应优化对变量的访问，适用于多线程或中断处理程序中的变量。2. 问题：`static` 关键字的作用是什么？     答案：`static` 关键字用于保持变量在程序的生命周期内保持其值，或者限制变量的作用域。3. 问题：`extern` 关键字的作用是什么？     答案：`extern` 关键字用于声明全局变量或函数，但不定义它们，可以在其他文件中使用。4. 问...

点赞评论收藏

转发

求求给个实习offer吧

昨天 14:51

已编辑

门头沟学院计算机类

腾讯 hr面打勾，但又回到复试状态

昨天二面，面试官说这两天就出结果。今天早上一看，已经进到hr面流程了。但过了一会，hr面打勾，又退回复试了。。。这是啥情况啊。。————4.24 约了当天三面————4.25 三面过了，流程再次推到HR面。————许愿HR约面！！！！

腾讯HR面349人在聊

点赞评论收藏

转发

03-29 22:33

已编辑

浙江科技学院计算机类

付费看了下岗位竞争，被吓到了，100-499的公司，我这双非二本能活不。更新：2024.3.20 竞争人数涨到了3000+2024.3.29 竞争人数涨到了3800+

点赞评论收藏

转发

04-22 14:20

已编辑

河南大学土木类

是的，学土木的，是的找不到工作实习。。

有没有改简历的神给评价一下目前0OFFER请问大神们我可以用这个投市场营销，公关之类的岗位吗，还是再搞个简历呢 #最后再改一次简历# #你的简历改到第几版了# #24应届#

最后再改一次简历你的简历改到第几版了

点赞评论收藏

转发

04-25 18:16

已编辑

门头沟学院计算机类

【美敦力医疗OC】第二个offer 但sb学校不放

bg:三本学校 cpp方向 投的是测开岗位 公司是医疗巨头500强offer了 但sb学校不放 不知道怎么做佬们遇到这种情况 是选择翘课去实习吗 还是怎么做 

软件开发薪资爆料

点赞评论收藏

转发

点赞收藏评论

全站热榜

正在热议

# 牛客帮帮团来啦！有问必答 #

363241次浏览 7420人参与

# 晒一晒我的offer #

2777509次浏览 49568人参与

# 非技术岗薪资爆料 #

5668次浏览 122人参与

# 华为求职进展汇总 #

435077次浏览 4369人参与

# 第一次面试 #

14377次浏览 226人参与

# 你更愿意参加线上面试还是线下面试？ #

5481次浏览 80人参与

# 简历中的项目经历要怎么写 #

375671次浏览 6323人参与

# 应届生应该先就业还是先择业 #

11099次浏览 109人参与

# 除了offer，现在你还缺点啥？ #

2290次浏览 47人参与

# 机械人怎么评价今年的华为 #

50663次浏览 413人参与

# 找工作，你会甘心进小厂还是猛冲大厂 #

22344次浏览 214人参与

# 来聊聊机械薪资天花板是哪家 #

19231次浏览 153人参与

# 通信硬件薪资爆料 #

139837次浏览 1017人参与

# 如何确定求职岗位 #

101438次浏览 2404人参与

# 谈薪时HR压价该怎么应对 #

32405次浏览 200人参与

# 百度工作体验 #

19077次浏览 208人参与

# 应届生初入职场，求建议 #

21335次浏览 528人参与

# 海信求职进展汇总 #

6843次浏览 91人参与

# 实习工作，你找得还顺利吗？ #

5166次浏览 79人参与

# 租房前辈的忠告 #

19969次浏览 1586人参与

牛客网
牛客企业服务