Scrapy 爬虫框架入门:了解基础知识
1。概念:scrapy是一个用python编写的爬虫框架,用于爬取网络数据并提取结构数据的框架。使用 Twisted 的异步网络框架来加速下载。
2。特点:爬取速度快,代码量小。
3。工作流程
索引器工作流程:运行 URL — 下单 URL — 发送请求获取响应 — 解析响应 — 保存数据
其中,当网页需要旋转时,解析响应时再次检索。对 URL 重复步骤 2-4。 索引框架
抓取流程
中间件:爬虫、可下载的中间件、自定义action,一般不需要自己写
绿色箭头:数据流向运行模块,负责传输数据以及不同模块之间的信号,类似于通信算子
Scheduler:调度器队列,存储引擎发送的请求请求(get pop)
Download:下载器
Spiders:爬虫,发起初始请求(URL封装) ),解析响应(数据,新URL)
Item Pipeline:Item对象,数据处理(数据存储)描述如下:
1.爬虫源url构造为请求对象-->爬虫中间件-->引擎-->调度器
2。调度器转换请求->引擎->下载中间件->下载
3。下载器发送请求并接收响应---->下载中间件---->引擎->索引器->索引器
4。爬虫提取URL地址并构造为查询对象---->索引器中间件->引擎->调度器,重复步骤2
5。爬虫提取数据—>引擎—>Pipeline处理并存储数据
Scrapy内置的三个对象
· request请求对象:由url方法post_data headers等组成。
·响应对象:由URL正文状态头等组成。
· 项目数据对象:本质上是一个字典
版权声明
本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。