2021-04-11 20:41 门头沟学院 Java

关注

初识Scrapy

初识Scrapy框架

之前学习的requests和selenium，它们基本上已经可以满足绝大部分的爬虫需求了。但是，在使用这两个模块的时候，往往会出现爬取效率低的情况，处理的事物多的时候多线程写起来比较麻烦。scrapy给我最大的感受就是可以使我们更便捷地写出高质量的爬虫程序。

1、Scrapy简介

Scrapy是一个为了爬取网站数据、提取结构性数据而编写的应用框架。它使用来Twisted异步网络框架，提高了爬取效率。很多东西框架已经写好，我们可以不用修改或者稍做修改，就可以使用，进而提高了写爬虫程序的效率。

2、Scrapy架构

2.1 5+2结构（5个组件+2个中间件）

Scrapy Enhine： 引擎负责控制数据流在系统中所有组件中流动，并在相应动作发生时触发事件。
Scheduler（调度器）： 调度器从引擎接受request并将他们入队，以便之后引擎请求他们时提供给引擎。
Downloader（下载器） 下载器负责获取页面数据并提供给引擎，而后提供给Spiders。
Spiders： Spider是Scrapy用户编写用于分析response并提取item(即获取到的item)或额外跟进的URL的类。每个spider负责处理一个特定(或一些)网站。
Item Pipeline： Item Pipeline负责处理被spider提取出来的item。典型的处理有清理、验证及持久化(例如存取到数据库中)。
Downloader middlewares（下载器中间件）： 下载器中间件是在引擎及下载器之间的特定钩子(specific hook)，处理Downloader传递给引擎的response。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。
Spider middlewares（Spider中间件）： Spider中间件是在引擎及Spider之间的特定钩子(specific hook)，处理spider的输入(response)和输出(items及requests)。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。

2.2 数据流

引擎（Scrapy Engine）打开一个网站，找到处理该网站的Spider，并向该Spider请求第一个要爬取的URL
引擎（Scrapy Engine）从Spider中获取到第一个要爬取的URL后，通过调度器（Scheduler）以Request的形式调度
引擎（Scrapy Engine）向调度器（Scheduler）请求下一个要爬取的URL
调度器（Scheduler）返回下一个要爬取的URL给引擎（Scrapy Engine），引擎将该URL通过下载中间件（Downloader middlewares）转发给下载器（Downloader）
下载器（Downloader）下载页面，一旦页面下载完毕，下载器生成一个该页面的Response，并将其通过下载中间件（Downloader middlewares）发送给引擎
引擎（Scrapy Engine）从下载中间件（Downloader middlewares）接收Response，并将其通过爬虫中间件（Spider middlewares）发送给爬虫（Spider）处理
爬虫（Spider）处理Response，并返回处理的Item及新的Request给引擎
引擎（Scrapy Engine）将爬虫（Spider）返回的Item给管道（Item Pipeline），将新的Request给调度器（Scheduler）
重复第2步到第8步，直到调度器（Scheduler）中没有更多的Request，引擎（Scrapy Engine）关闭该网站，爬虫结束

可见，Engine是整个程序的中枢。每一步的操作都要经过它。

3、使用Scrapy

3.1 安装Scrapy并配置环境

pip install scrapy
scrapy -h查看是否已添加到path
若2步骤不成功，则需要手动将scrapy添加到pyth

3.2 Scrapy使用步骤

新建项目–>明确目标Item（要爬取的目标数据）–>编写爬虫spider–> 持久化存储Item pipline

建立一个scrapy爬虫工程

  scrapy startproject Demo #创建一个名为Demo的工程

在工程中产生一个scrapy爬虫

  scrapy genspider demo mlp.ldeo.columbia.edu

此时Demo文件夹下的spiders文件夹下会多一个demo.py文件

.
├── Demo                            #外层目录
│   ├── __init__.py                 #初始化脚本
│   ├── __pycache__                 #缓存目录无需修改
│   │   ├── __init__.cpython-38.pyc
│   │   └── settings.cpython-38.pyc
│   ├── items.py                   #Items代码模板（继承类） 
│   ├── middlewares.py             #Middlewares代码模板（继承类）
│   ├── pipelines.py               #Pipelines代码模板（继承类）
│   ├── settings.py                #Scrapy爬虫的配置文件
│   └── spiders                    #Spiders代码模板目录（继承类）
│       ├── __init__.py            #初始化文件无需修改
│       ├── __pycache__            #缓存目录无需修改
│       │   └── __init__.cpython-38.pyc
│       └── demo.py                #用户自定义的爬虫程序 
└── scrapy.cfg                     #部署Scrapy爬虫的配置文件

配置产生的spider爬虫

编写Spider

start_urls
parser

import scrapy

class DemoSpider(scrapy.Spider):
    name = 'demo'
    allowed_domains = ['mlp.ldeo.columbia.edu']
    start_urls = ['https://mlp.ldeo.columbia.edu/logdb/scientific_ocean_drilling/result/']

    def parse(self, response):
        tr_list = response.xpath("//tr")
        for tr in tr_list[3:]:
            item = {
       }
            item['year']=tr.xpath('./td')[0].xpath('./text()').extract_first()
            item['program']=tr.xpath('./td')[1].xpath('./text()').extract_first()
            item['EG/EXP']=tr.xpath('./td')[2].xpath('./text()').extract_first()
            item['HOLE']=tr.xpath('./td')[3].xpath('./a/text()').extract_first()
            item['LOCATION']=tr.xpath('./td')[4].xpath('./text()').extract_first()
            item['OCEAN/SEA']=tr.xpath('./td')[5].xpath('./text()').extract_first()

            yield item

编写pipeline

在写pipeline之前需要在settings.py中将其开启

ITEM_PIPELINES = {
      'Demo.pipelines.DemoPipeline': 300, 
}

同时将日志等级降,也在settings中设置
```
 LOG_LEVEL = "WARNING"
```

写pipeline （在这里进行持久化存储）

from itemadapter import ItemAdapter

  class DemoPipeline:
      def process_item(self, item, spider):
          print(item) # 这里可以替换为保存到数据库、本地文件
          return item

运行爬虫工程
```
  scrapy cral demo 
```

全部评论

推荐最新楼层

04-27 04:44

Stanford University 算法工程师

小米YU7实车再次亮相，外观内饰比SU7漂亮

新能源车领域热度攀升，华为、小米等科技巨头纷纷入局。自然事出有因，新能源车如今化身“大型移动智能终端”，智能化进程俨然是不可忽视的关键突破口，智能驾驶更是备受追捧的赛道。传统车企若再不去寻求破局之道，未来恐怕难有作为，以小米为例，虽只有SU7这一款车型在售，但销量却十分可观，如今月销已经稳定在两万台以上。当然，小米也是再接再厉，小米YU7实车再次亮相，外观内饰比SU7漂亮，若25万起能成爆款么？首先，定位中大型SUV的小米YU7和中大型车小米SU7，在外观设计上有诸多相似的地方。车头依旧是标志性的家族设计，大灯造型犀利，点亮后极具辨识性。两侧用凸起的筋线刻画出了强烈的力量感，车头下方夸张的导流...

点赞评论收藏

分享

04-29 20:46

已编辑

重庆大学 Java

27 日常实习蔚来一、二面

官网投递，忘记录音了，有些忘了一面自我介绍ConcurrentHashMap和HashMap的区别？ConcurrentHashMap是怎么保证并发安全的？说一下第一个项目，为什么要做这个项目？收获了什么？Bean的生命周期如何实现？介绍下你的代码流程Spring事务是怎么实现的呢？将一下第二个项目，为什么要做的这项目?收获了什么?对于你这个项目，你需要进行优化，你会从哪几个方面入手（感觉是个很好的问题，比较开放）代码优化，if-else多的改策略模式，公共部分重复提取出来用AOPMySQL索引优化，加索引，建立联合索引SQL语句优化，确保索引被使用架构优化，Redis集群，读写分离等.......

查看20道真题和解析

点赞评论收藏

分享

04-25 14:54

河北大学 Java

双非实习小破厂oc已入职

问很基础的八股jvm垃圾回收，双亲委派是什么之类的石家庄一个小公司，公司有200多个人，但是开发部门是新成立的，一共有11个人，新开的业务线，是做一个商城的微服务项目，感觉组长也很有实力，问什么都秒回。鼠鼠打算包装了这个实习，再搞个星球项目，再去冲秋招，佬们可以给鼠鼠提点意见😭

在找对象的肱二头肌很想喝咖啡：数学专业也来卷开发吗😤😤😤

点赞评论收藏

分享

03-20 13:23

兰州工业学院网络安全

这年头装货这么多吗？

这也能秀？对中文的理解能力甚至不如一年前的llm

大叔叔1：你把自己说的话打码，所以你想表达什么

点赞评论收藏

分享

04-26 19:32

万得信息_数据算法工程师(准入职员工)

万得内推万得内推

万得面经+内推码一面：技术基础与项目经验考察面试当天，我提前到达了万得信息的办公地点。一面是技术面，面试官是一位看起来很资深的后端开发工程师。编程语言：面试官首先问了我对 Java 的掌握程度，比如 Java 的多态性是如何实现的，我详细解释了方法重载和方法重写的概念以及它们在实现多态性中的作用。接着又问了 Java 集合框架，像 ArrayList 和 LinkedList 的区别，我从底层数据结构、插入和删除操作的时间复杂度等方面进行了回答。数据库：在数据库方面，问到了 MySQL 的事务隔离级别，我回答了读未提交、读已提交、可重复读和串行化这四个级别，并说明了每个级别可能出现的问题，比如...

点赞评论收藏

分享

评论

点赞

2

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 国企还是互联网，你怎么选？ #

122871次浏览 950人参与

# 找工作，行业重要还是岗位重要？ #

8990次浏览 121人参与

# 五一之后，实习真的很难找吗？ #

47705次浏览 345人参与

# 盲审过后你想做什么？ #

13148次浏览 117人参与

# 应届生进小公司有什么影响吗 #

67331次浏览 984人参与

# 外包能不能当跳板？ #

22449次浏览 192人参与

# 25届秋招公司红黑榜 #

257437次浏览 1083人参与

# 租房找室友 #

13641次浏览 98人参与

# 小厂实习有必要去吗 #

42421次浏览 260人参与

# 领导秒批的请假话术 #

10368次浏览 76人参与

# 蚂蚁集团工作体验 #

10864次浏览 70人参与

# 设计人如何选offer #

98720次浏览 690人参与

# 五一假期，你打算“躺”还是“卷”？ #

35032次浏览 460人参与

# 考研可以缓解求职焦虑吗 #

21867次浏览 258人参与

# 如果校招重来我最想改变的是 #

245472次浏览 2781人参与

# 面试等了一周没回复，还有戏吗 #

116280次浏览 1079人参与

# 一句话证明你在找工作 #

292590次浏览 2411人参与

# 大疆的机械笔试比去年难吗 #

69746次浏览 603人参与

# 找工作前vs找工作后的心路变化 #

7267次浏览 64人参与

# 潍柴工作体验 #

17093次浏览 17人参与

牛客网
牛客企业服务