python爬虫------requests库入门
requests库的安装
pip指令安装
 pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple/
 
 安装成功,测试
 以访问百度为例
 用status检测状态码:如果状态码是200,访问成功,否则访问失败
 
requests库的7个主要方法
requests.request
 七种请求方法
 
 13个参数
 
 
 
 
 
 
 
 
 
requests.get()
requests.head()
request.post()
requests.put()
requests.patch()
requests.delete()
get方法
访问一个网页的常用方法
 
 
response对象的属性
 
 理解response的编码:
 
网页爬取有风险,异常处理
 
爬取网页的通用代码框架
import requests
def getHTMLText(url):
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()  #如果状态不是200,引发HTTPError异常
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "产生异常"
if __name__ == "__main__":
    url = "http://www.baidu.com"
    print(getHTMLText(url))
  HTTP协议
 
 URL是通过HTTP协议存取资源的Internet路径,一个URL对应一个数据资源
 
 
 
查看9道真题和解析
