python超简单爬虫教程

python超简单爬虫教程

python超简单爬虫教程

大家好!在这里给大家交流一下小编总结得python超简单爬虫教程,废话不多说,直接上代码

七大步骤:

1发送数据请求
2请求网站源码
3数据筛选
4存储数据
5数据可视化
6数据分析
7公司决策

完整代码如下:

import request
import re
import xlwt
#获取源码
def get_content(page):
	url = 'https://www.zhipin.com/c101010100-p100109/?page='+str(page)+'&ka=page-'+str(page)+''
	headers = {
		"user-agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6788.400 QQBrowser/10.3.2727.400"
 	}
	req = request.get(url,headers=headers)
	req.encoding = 'utf-8'
	html = req.text
	return html 	
#筛选数据 获取满足正则表达式所爬去的目标
def get(html):
	reg = re.compile(r'class="job-tab".*?<div class="job-title">(.*?)</div>.*?<span class="red">(.*?)</span>.*?target="_blank">(.*?)</a>',re.S)
	item = re.findall(reg,html)
	return items
datalist = []
def saveDataToDatalist():
	for j in range(1,6)
		print('正在爬取第'+str(j)+'页数据内容。。。')
		html get_content(j)
		for i in get(html)
			data = []
			for j in range(0,5):
				data.append(i[j])
			datalist.append(data)
	return
#创建方法将datalist内容写入excel文件
def saveDataToExcel(savePath):
	book = xlwt.Workbook(encoding='utf-8',style_compression=0)
	sheet = book.add_sheet('boss',cell_overwrite_ok=Ture)
	col = ('职位','薪资','公司名称')
	for i in range(0,5)
		sheet.wirte(0,i,col[i])
	for i in range(0,len(0,len(datalist)):
		data = datalist[i]
		for j in range(0,5):
		sheet.wirte(i+1,j,data[j])
	book.save(savePath)
saveDataToDatalist()
saveDataToExcel('boss.xls')


就这样了,都看到这里了,点赞关注走一走吧,谢谢大家!

#Python##python爬虫##前端入门教程##技术##职场经验#
全部评论
不涉及逆向。很多东西都爬不到
点赞 回复 分享
发布于 2023-01-16 23:48 上海
这种不太难,真正的爬虫是逆向
点赞 回复 分享
发布于 2022-11-30 00:42 重庆
这个python好学不,难不难
点赞 回复 分享
发布于 2022-09-30 23:55 山西

相关推荐

05-23 20:31
已编辑
武汉大学 Java
内向的柠檬精在研究求职打法:注意把武大标粗标大 本地你俩不是乱杀
点赞 评论 收藏
分享
见见123:简历没有啥问题,是这个社会有问题。因为你刚毕业,没有工作经历,现在企业都不要没有工作经历的。社会病了。
点赞 评论 收藏
分享
不愿透露姓名的神秘牛友
昨天 19:30
化身华黑&nbsp;今天询问对接人审批情况,结果被告知没HC了&nbsp;云计算&nbsp;
苦闷的柠檬精allin实习:主管面结束后hr每周保温一次,结果前几天和我说没hc了,我也化身华黑子了
投递华为等公司8个岗位 > 华为求职进展汇总
点赞 评论 收藏
分享
评论
5
6
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务