2020-07-23 16:14 已编辑桂林电子科技大学信息技术岗

关注

<span>python爬虫学习笔记(二十)-Scrapy框架 Pipeline</span>

1. Item Pipeline 介绍

当Item 在Spider中被收集之后，就会被传递到Item Pipeline中进行处理

每个item pipeline组件是实现了简单的方法的python类，负责接收到item并通过它执行一些行为，同时也决定此Item是否继续通过pipeline,或者被丢弃而不再进行处理

item pipeline的主要作用：

清理html数据
验证爬取的数据
去重并丢弃
讲爬取的结果保存到数据库中或文件中

2. 编写自己的item pipeline

2.1 必须实现的函数

process_item(self,item,spider)

每个item piple组件是一个独立的pyhton类，必须实现以process_item(self,item,spider)方法

每个item pipeline组件都需要调用该方法，这个方法必须返回一个具有数据的dict,或者item对象，或者抛出DropItem异常，被丢弃的item将不会被之后的pipeline组件所处理

2.2 可以选择实现

open_spider(self,spider)
表示当spider被开启的时候调用这个方法
close_spider(self,spider)
当spider关闭时候这个方法被调用

2.3 应用到项目

import json

class MoviePipeline(object):
    def process_item(self, item, spider):
        json.dump(dict(item), open('diban.json', 'a', encoding='utf-8'), ensure_ascii=False)
        return item

注意：

写到pipeline后，要在settings中设置才可生效

ITEM_PIPELINES = {
    'spiderdemo1.pipelines.MoviePipeline': 300
}

2.4 将项目写入MongoDB

MongoDB地址和数据库名称在Scrapy设置中指定; MongoDB集合以item类命名

from pymongo import MongoClient
from middle.settings import HOST
from middle.settings import PORT
from middle.settings import DB_NAME
from middle.settings import SHEET_NAME


class MiddlePipeline(object):
    def __init__(self):
        client = MongoClient(host=HOST, port=PORT)
        my_db = client[DB_NAME]
        self.sheet = my_db[SHEET_NAME]

    def process_item(self, item, spider):
        self.sheet.insert(dict(item))
        return item

全部评论

推荐最新楼层

07-17 10:27

已编辑

中山职业技术学院 Java

周六凌晨一点被面试官侮辱！！！

周六凌晨一点把我叫到面试平台上，疯狂侮辱我什么意思。我不可以去睡觉吗？我要上线被你侮辱？我晚上会做噩梦的。文远知行主管面约在了周六的凌晨一点，全程压力面，为了这个面试我还特地倒了一下时差。本以为主管面应该是一个正常的面试交流。结果一进面试间，就发现不太对，怎么还有面试官一边吃东西（类似劲仔小鱼的包装，但应该不是劲仔小鱼hhhh）一边说话的，吃东西吧唧吧唧，然后吃完发现粘牙了，还用咖啡很大声漱口，这种行为持续了10分钟。1、开场是自我介绍，我说两句他就要打断一次，话都不让我说完。2、每聊啥都说只能用三句话回答问题，超过三句话就开始说听不懂叫我重新组织语言。3、我说我用mysql存数据，他说为什么...

_mos_：估计面试官在美国

查看11道真题和解析

点赞评论收藏

分享

不愿透露姓名的神秘牛友

07-18 12:01

人事必须要跪求求职者来面试?

人事给求职者沟通态度就必须要低吗，谁态度蛮横谁有理，真害怕啊，上门到公司找事

码农索隆：**到处都是

点赞评论收藏

分享

07-03 17:09

已编辑

武汉工程大学邮电与信息工程学院　 Java

现在Java开发这么难吗面试都没几个

26届找实习根本找不到啊，我的简历很差吗，也不至于一个没有吧

Lorn的意义：1.你这根本就不会写简历呀，了解太少了 2.你这些项目经历感觉真的没啥亮点啊，描述的不行，重写书写一下让人看到核心，就继续海投注意七八月份ofer还是比较多的，越往后机会越少，抓住时机，抓紧检查疏漏，加油

查看图片

点赞评论收藏

分享

06-26 21:09

长沙理工大学 C++

有没有人来制裁一下

如下图，真让我惊到了，有没有人去给这老板上一课

写不来代码的小黑：这么小的城市能有做it的公司也不容易

点赞评论收藏

分享

07-15 10:45

南京邮电大学 Java

21届-测试面经-华OD

基本情况21届92本，工科，测试工作两年，家里有事空窗两年机考机考一直拖着没考，感谢栗栗子一直等我也没有催着我。可以直接找栗栗子要，资料非常全，我后来才找的栗栗子，自己先在网上找的资料，可惜没提前找栗栗。直接刷题库，学思路，抽题运气成分很大，我抽到的200分题没做过但是很简单，算分395性格测试看栗栗子给的攻略，注意保持前后一致，选积极不焦虑不紧张HR面试第一个部门-电话沟通了解个人情况+介绍部门业务第一个部门-资面-空窗挂纯拷打空窗期，其他都没问第二个部门-资面-稳定性有问题挂空窗期离职原因之前工作的项目内容怎么看OD期望薪资加班怎么看是否单身为什么来深圳挂的原因分析：离职原因说之前工作的领...

查看19道真题和解析

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 26届的你们有几段实习？ #

40497次浏览 459人参与

# 月薪多少能在一线城市生存 #

23362次浏览 277人参与

# 你后悔自己读研吗？ #

18038次浏览 233人参与

# 你以为的实习VS真实的实习 #

25542次浏览 239人参与

# 当下环境，你会继续卷互联网，还是看其他行业机会 #

117348次浏览 810人参与

# 打工人的工作餐日常 #

51968次浏览 407人参与

# 双非能在秋招上岸吗？ #

221109次浏览 1170人参与

# 你觉得早上几点上班合适？ #

71582次浏览 299人参与

# 一人推荐一个值得去的通信/硬件公司 #

186023次浏览 1858人参与

# 你认为哪些项目算烂大街？ #

16537次浏览 265人参与

# 哪些公司真双非友好？ #

15229次浏览 81人参与

# 追觅科技求职进展汇总 #

17892次浏览 120人参与

# 机械校招之路总结 #

93648次浏览 1893人参与

# 你被哪些公司秒挂过？ #

30190次浏览 238人参与

# 找工作时的取与舍 #

82736次浏览 590人参与

# 秋招拿一个offer可以躺平吗 #

146125次浏览 940人参与

# 最难的技术面是哪家公司？ #

9159次浏览 73人参与

# 网申一定要掌握的小技巧 #

10809次浏览 66人参与

# 你觉得技术面多长时间合理？ #

98949次浏览 716人参与

# 如何KTV领导 #

62462次浏览 472人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务