【你问我答】Python有哪些常见的、好用的爬虫框架?

问题描述:

Python有哪些常见的、好用的爬虫框架?

回答有奖:

选取一位认真回答问题的牛友,赠送200牛币!

你问我答问题汇总:点击进入

------------
#我也有问题想询问牛友,怎么办?

欢迎私信@筱茜 说明你的问题,将根据问题具体情况排期进入【你问我答】专场~
私信请注明参与【你问我答】专场哦~

你问我答 - 答问题,成大佬,拿牛币!
你问我答是牛客新栏目,每周1期几个问题,
牛友在问题贴下留下自己的知识,经验与见解,
帮助更多牛友了解更多技术相关知识!
#Python##悬赏#
全部评论
1、Scrapy框架 Scrapy框架是一套比较成熟的Python爬虫框架,是使用Python开发的快速、高层次的信息爬取框架,可以高效的爬取web页面并提取出结构化数据。 Scrapy应用范围很广,爬虫开发、数据挖掘、数据监测、自动化测试等。 2、crawley框架  crawley也是使用python开发出来的一款爬虫框架,该框架致力于改变人们从互联网中提取数据的方式,让大家可以更高效地从互联网中爬取对应内容。   crawley框架的主要特点有:                 1>高速爬取对应网站内容                 2> 可以将爬取到内容轻松地存储到数据库中,比如:postgres,mysql,oracle,sqlite等数                         据库                  3>可以将爬取到的数据导出为json,xml等格式                  4>支持非关系型数据库,比如:mongodb,couchdb等                  5>支持使用命令行工具                  6>可以使用你喜欢的工具提取数据,比如使用xpath或者pyquery等工具                  7>支持使用cookie登陆并访问哪些只有登陆才能够访问的网页 3、portia框架 portia框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框架,给出你要爬取的网页中感兴趣的数据内容,通过portia框架,可以将你所需要的信息从相似的网页中自动提取出来。 4、newspaper框架 newspaper框架是一种用来提取新闻、文章以及内容分析的python爬虫框架。更准确地说,newspaper是一个python的库,只不过这个库是由第三方开发的,可以归为一种框架。 newspaper框架在的主要特点:                      1>比较简单                      2>速度比较快                      3>支持多线程                      4>支持十多种语言 5、Python-goose框架 coose本来是一款用java写的文章提取工具,Xavier Grangier用python重写了goose,并将重写后goose命名为python-goose。 所以python-coose框架实现的功能同样是进行文章提取。
2 回复
分享
发布于 2019-04-25 15:50
pyspider
点赞 回复
分享
发布于 2019-04-26 01:40
阅文集团
校招火热招聘中
官网直投

相关推荐

西安腾讯云智 后端Java 13K+2.4w+1k
点赞 评论 收藏
转发
点赞 2 评论
分享
牛客网
牛客企业服务