2019-07-25 14:08 已编辑重庆邮电大学 golang

关注

python爬虫实践（二）——爬取豆瓣读书信息

python豆瓣读书爬虫实践

代码实现：


# -*- coding:utf-8 -*-
'''
爬取豆瓣读书Top250书名，作者，评分，简介
主要用到了requests 和 Beautifulsoup

'''
import  requests
from bs4 import  BeautifulSoup  #导入库

def get_html(url):       #获取HTML的函数
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}
    resp = requests.get(url,headers=headers).text

    return resp

def all_pages():         #经分析，每隔一页 start= 后面增加25 于是编写函数获取所有url
    base_url = 'https://book.douban.com/top250?start='
    urllist = []
    for page in range(0,250,25):  #利用for循环迭代的方法
        allurl = base_url + str(page)
        urllist.append(allurl)
    return urllist

def html_parse():   #最关键的函数
    for url in all_pages():
        #BeautifulSoup 的解析
        soup = BeautifulSoup(get_html(url), 'lxml')
        #书名
        alldiv = soup.find_all('div', class_='pl2')
        names = [a.find('a')['title'] for a in alldiv]
        #作者
        allp = soup.find_all('p', class_='pl')
        authors = [p.get_text() for p in allp]
        #评分
        starspan = soup.find_all('span', class_='rating_nums')
        scores = [s.get_text() for s in starspan]
        #简介
        sumsapn = soup.find_all('span', class_='inq')
        sums = [i.get_text() for i in sumsapn]
        #利用zip函数打包处理
        for name, author, score, sum in zip(names, authors, scores, sums):
            name = '书名: ' + str(name) + '\n'
            author = '作者: ' + str(author) + '\n'
            score = '分数: ' + str(score) + '\n'
            sum = '简介: ' + str(sum) + '\n'
            data = name + author + score + sum
            f.writelines(data + '====================' + '\n') #写入文件的格式


#文件部分的操作
filename = '豆瓣读书top250.txt' #文件名
f = open(filename, 'w',encoding='utf-8') #写入并解码

html_parse() #调用函数
f.close()  #关闭文件
print('保存成功')  #打印完成信息

全部评论

推荐最新楼层

06-02 03:51

南京航空航天大学硬件开发

为什么我的mos管驱动电路总是不听话？（上-基本原理总结）

小白噩梦就是mos管驱动电路了，在这个简单的小电路里处处充满了危险的散杂和寄生电容电感，稍有不慎就震荡，轻轻调一点又过阻尼了，跳到最后又发现振铃，得出结论板子画错了，回路电感太大了已经没救了哈哈哈。希望这篇文章能帮到大家一次性扫清所有的基本知识障碍，有时间再出一个常见的故障分析。

牛客创作赏金赛

点赞评论收藏

分享

06-04 12:02

江苏科技大学 Java

我的工位不算乱吧？

我同事说我工位乱，我觉得还行啊明明是乱中有序

准备笔试的追梦人：还行，我的更乱

晒一晒你的工位

点赞评论收藏

分享

05-08 19:21

门头沟学院 Java

26java简历拷打

       被辞退后将一个月的经历包装成了3个月，打算5月底投简历，干到8月份。有什么要修改的地方么，求指点      

代码飞升：三个月的话产出不太够感觉

点赞评论收藏

分享

06-04 09:27

门头沟学院 Java

所以这样的打招呼，真的不好吗😇 无面无面无面😇投了好多了  

今年形式下双非本找得到工作吗

点赞评论收藏

分享

06-03 00:24

上海交通大学 C++

25 暑期实习&秋招面经

1 自我介绍主要投递CPP相关的开发岗位：异构计算、量化开发、数据库、后台开发。2 暑期实习面试2.1 腾讯 WXG 客户端面试的部门主要做网络库，跟我的简历一点不match。写题 LRU有bug没改出来进程和线程区别什么是死锁，死锁的必要条件进程间通信方式虚函数的用处，实现原理weak_ptr和shared_ptr的区别，shared_ptr的实现原理shared_ptr在什么情况下会造成内存泄漏？TCP三次握手，滑动窗口协议不懂网络（本科学的东西全忘了）为什么阿里云实习只有一个多月？说三种排序算法复杂度什么是排序算法的稳定性？又给了一个简单代码题挂！2.2 腾讯 WXG 企业微信-后台自我...

我的求职总结

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

腾讯暑期补捞中

热聊中

TP-LINK开奖

热聊中

创作者周榜

更多

正在热议

更多

# 我的实习收获 #

20992次浏览 382人参与

# 在国企工作的人，躺平了吗？ #

332865次浏览 3859人参与

# 实习吐槽大会 #

23431次浏览 110人参与

# 商战，最累的是我们 #

12515次浏览 48人参与

# 晒一晒你的工位 #

83126次浏览 295人参与

# 我的租房踩坑经历 #

15780次浏览 202人参与

# 小厂实习有必要去吗 #

46250次浏览 267人参与

# 夸夸我的求职搭子 #

190664次浏览 1890人参与

# 穿越回高考你还会选现在的专业吗 #

15673次浏览 211人参与

# 毕业旅行去哪玩儿 #

880次浏览 25人参与

# 你小时候最想从事什么职业 #

95409次浏览 1719人参与

# 携程求职进展汇总 #

528492次浏览 3932人参与

# 高学历就一定能找到好工作吗？ #

47495次浏览 589人参与

# 读研or工作，哪个性价比更高？ #

61389次浏览 717人参与

# 打工人锐评公司红黑榜 #

145072次浏览 903人参与

# 牛友打假中心 #

89551次浏览 2649人参与

# 一觉醒来，我成论文导师了… #

19124次浏览 305人参与

# 今年形式下双非本找得到工作吗 #

140729次浏览 1067人参与

# 实习中的菜狗时刻 #

366383次浏览 3297人参与

# 工作压力大怎么缓解 #

79148次浏览 934人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务