淘系技术部招聘

2019-07-27 18:48 已编辑阿里巴巴_淘宝_Java研发

关注

Scrapy实践：爬取斗鱼TV主播的头像（重写ImagesPipeline实现图片爬取）

注：若运行以下代码报出有关“PIL”的错误，则只需安装pillow即可。

实现思路：

（1）使用Fiddler抓包工具，找出为斗鱼APP颜值区提供数据的URL（Json格式）
（2）在items中定义需要记录的相关信息
（3）在spider中实现迭代爬取各主播的信息
（4）在Pipeline中通过继承内置的ImagesPipeline类，重写其功能，实现图片的下载
（5）在settings.py文件中进行相关配置

代码实现：

items.py

# -*- coding: utf-8 -*-

import scrapy


class DouyuItem(scrapy.Item):
    #图片链接
    vertical_src = scrapy.Field()
    #主播名
    nickname = scrapy.Field()
    #图片保存路径
    imagePath = scrapy.Field()

爬虫文件（spiders/douyuMM.py）

# -*- coding: utf-8 -*-
import scrapy
import json
from Douyu.items import DouyuItem


class DouyummSpider(scrapy.Spider):
    name = 'douyuMM'
    allowed_domains = ['capi.douyucdn.cn']
    initial_URL = 'http://capi.douyucdn.cn/api/v1/getVerticalRoom?limit=20&offset='
    offset = 0
    URL = initial_URL + str(offset)
    start_urls = [URL]

    def parse(self, response):
        data = json.loads(response.text)['data']
        for each in data:
            item = DouyuItem()
            item['nickname'] = each['nickname']
            #将图片链接存储成列表形式，供pipelines迭代
            image_url = each['vertical_src']
            item['vertical_src'] = [image_url]
            yield item

        self.offset += 20
        #抓取前100个主播的图片
        if self.offset < 100:
            self.URL = self.initial_URL + str(self.offset)
            yield scrapy.Request(url=self.URL, callback=self.parse)

pipelines.py

# -*- coding: utf-8 -*-

import os
import scrapy
"""
    pipelines提供了图片相关的方法，因此只需继承ImagesPipeline
    并对“get_media_requests”和“item_completed”重写即可实现图片的下载
"""
from scrapy.pipelines.images import ImagesPipeline
#通过get_project_settings来获取settings.py文件中设置的变量
from scrapy.utils.project import get_project_settings


class DouyuImagesPipeline(ImagesPipeline):
    IMAGES_STORE = get_project_settings().get('IMAGES_STORE')

    def get_media_requests(self, item, info):
        for image_url in item['vertical_src']:
            yield scrapy.Request(image_url)

        """
            亦可用下面的代码，只不过下面的代码只能抓取一张图片
            image_url = item['vertical_src']
            yield scrapy.Request(image_url)
        """

    def item_completed(self, results, item, info):
        """
            result结构:
                [(True,
                  {'checksum': '2b00042f7481c7b056c4b410d28f33cf',
                   'path': 'full/0a79c461a4062ac383dc4fade7bc09f1384a3910.jpg',
                   'url': 'http://www.example.com/files/product1.pdf'}),
                 (False,
                  Failure(...))]
        """
        image_path = [x['path'] for ok, x in results if ok]
        # 修改图片保存名称为主播昵称
        # 并将爬取的图片存储在IMAGES_STORE设置的相对路径下，用“full”文件存储
        os.rename(self.IMAGES_STORE + image_path[0], self.IMAGES_STORE + 'full/' + item["nickname"] + ".jpg")
        item['imagePath'] = self.IMAGES_STORE + 'full/' + item["nickname"]
        return item

settings.py

BOT_NAME = 'Douyu'

SPIDER_MODULES = ['Douyu.spiders']
NEWSPIDER_MODULE = 'Douyu.spiders'

ROBOTSTXT_OBEY = True
DEFAULT_REQUEST_HEADERS = {
    'User-Agent':'DYZB/4.100 (iPhone; iOS 11.3.1; Scale/3.00)',
    'Accept': 'application/vnd.mapi-yuba.douyu.com.4.0+json',
    'Accept-Language': 'zh-Hans-CN;q=1'
}

IMAGES_STORE = 'data/斗鱼主播图片/'

ITEM_PIPELINES = {
    'Douyu.pipelines.DouyuImagesPipeline': 300,
}

全部评论

推荐最新楼层

02-13 13:35

学而思_HR(准入职员工)

学而思内推，学而思内推码

1️⃣ 请先做个简单的自我介绍？ 😊 2️⃣ 能否谈下你应聘这个岗位的优势？ 🌟 3️⃣ 你的职业规划是什么？ 🎯 4️⃣ 为什么选择学而思作为你的求职目标？ 🏢 5️⃣ 你对学而思的课程顾问岗位有哪些了解？ 📋 6️⃣ 描述一次团队合作的经历，你在其中扮演了什么角色？ 🤝 7️⃣ 遇到工作压力大时，你通常如何应对？ 😊 8️⃣ 面对家长和学生的投诉，你会如何处理？ 💬 9️⃣ 如何向一个对学而思课程持怀疑态度的家长介绍课程？ 📚 🔟 请举例说明你如何通过有效沟通解决过一个问题。 💡 1️⃣1️⃣ 描述一次你认为成功的销售或推广经验。 🚀 1️⃣2️⃣ 你如何看待持续学...

点赞评论收藏

分享

02-13 13:41

睿琪软件_产品经理(准入职员工)

禾赛科技内推，禾赛科技内推码

禾赛科技软件测试面经全程一个小时左右，需要写SQL和代码- 自我介绍- 项目提问- 项目里面的好友列表咋做数据库设计的- TCP四次挥手- python基本数据结构- 列表和数组的区别- 写SQL（用到分组、排序、聚合函数）- 写代码（输入一个数，各个位上两两交换位置，输出最大的数）全球激光雷达Top禾赛科技26届校招【企业介绍】全球领先的激光雷达研发与制造企业，全球激光雷达市占率No.1，美国纳斯达克上市。【开放岗位】商务类、产品类、项目管理类、销售类、系统类、芯片类、光学类、机械类、电子类、软件类、算法类、测试类、制造类【面向人群】毕业时间：2024.7-2025.12【工作地点】上海、杭...

点赞评论收藏

分享

2025-12-31 19:23

已编辑

门头沟学院 Java

研0实习是打死找不到的

ssob是已读不回的，字节是压根不敢投的，简历是反反复复改了N遍的，八股是永远背不完的😅😅😅扯远了，道心破碎了，把简历发出来让大伙先看看笑话。再说正事。寒假日常实习还是很难找，连个面试都难约，我不是个例，这是网上普遍反映。不报希望了，趁着2、3月前赶紧做些什么才是。扔几个碎碎念：1.这破简历还能怎么改？写到什么程度才能过实习岗筛选？广大牛友来锐评一下2.火速辅修go，是否可行目前看来是学习成本最小的。首先，很多go实习岗位已经明确要求掌握gin等技术栈，拿java简历投go的时代已经过去了。其次，很多后端的东西，MySQL、Redis这些都是通用的，不用重新学。所以这个问题就具体为：2.1 java&go混血简历怎么写第一个项目，仿大麦的微服务，不太好改。因为有用到Redisson、AOP、SpringAI这些java强相关的东西，包装成go需要替换这些方案。第二个，点评魔改。应该可以包装成go，github上也有人用go重写过。2.2 java&go通用的轮子RPC直接pass了，太烂大街了。不知道动态线程池能不能做。反正项目上新有风险，不一定来得及，非必要就不开新的项目。补充：别跟我扯RAG了，这玩意已经成新的烂大街了，详见我上一篇的吐槽。3.认真学微调prompt什么的这个半步踩进算法了已经。八股和场景题完全就是另一套，没两三个月搞不定的。约等于换方向

简历中的项目经历要怎么写

点赞评论收藏

分享

01-31 11:59

蚌埠坦克学院后端工程师

看似0，实则100%

有人零实习也能进大厂，是因为他们手里有比实习更硬的底牌，高学历背景，985、211的毕业证本身就是一块金字招牌，或者丰富的科研经历，发表过高质量的论文，参与过前沿项目，这些都是能力的直接证明；亦或是那些高含金量的奖项，像ACM竞赛的金奖、Kaggle比赛的高排名，这些都能让招聘官一眼相中，当然，家庭背景硬也是一种隐性优势。总之，没有人能够无缘无故的进入大厂，当然家庭背景很硬也是一种能力

不知道怎么取名字_：现在这么卷，0实习能进的，都是有真本事的

为什么有人零实习也能进大...

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 牛客新年AI问运 #

3810次浏览 83人参与

# 秋招吐槽大会 #

303579次浏览 1520人参与

# 牛客AI体验站 #

15789次浏览 278人参与

# 工作中的卑微时刻 #

33208次浏览 197人参与

# 如何提高实习转正率？ #

85910次浏览 504人参与

# 牛友的春节生活 #

12944次浏览 230人参与

# 备战春招/暑实，现在应该做什么？ #

8411次浏览 206人参与

# 找工作中的意难平 #

984103次浏览 6424人参与

# 从夯到拉，锐评职场mentor #

8161次浏览 114人参与

# 多益网络工作体验 #

62960次浏览 304人参与

# 实习到现在，你最困惑的一个问题 #

7398次浏览 170人参与

# 查收我的offer竞争力报告 #

277306次浏览 1696人参与

# 新年的第一句祝福 #

57091次浏览 395人参与

# 秋招踩过的“雷”，希望你别再踩 #

185795次浏览 1684人参与

# 今年秋招你收到了多少封邮件？ #

38429次浏览 280人参与

# 制造业的秋招小结 #

143446次浏览 2089人参与

# 我们是不是被“优绩主义”绑架了？ #

32113次浏览 484人参与

# 实习在多还是在精 #

82884次浏览 509人参与

# 你怎么看待AI面试 #

145559次浏览 785人参与

# 大家实习都在做什么？ #

35042次浏览 292人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务