Scrapy 爬虫框架入门：了解基础知识

terry 2年前 (2023-09-24) 阅读数 51 #后端开发

1。概念：scrapy是一个用python编写的爬虫框架，用于爬取网络数据并提取结构数据的框架。使用 Twisted 的异步网络框架来加速下载。

2。特点：爬取速度快，代码量小。

3。工作流程

索引器工作流程：运行 URL — 下单 URL — 发送请求获取响应 — 解析响应 — 保存数据

其中，当网页需要旋转时，解析响应时再次检索。对 URL 重复步骤 2-4。索引框架抓取流程

中间件：爬虫、可下载的中间件、自定义action，一般不需要自己写

绿色箭头：数据流向运行模块，负责传输数据以及不同模块之间的信号，类似于通信算子

Scheduler：调度器队列，存储引擎发送的请求请求（get pop）

Download：下载器

Spiders：爬虫，发起初始请求（URL封装）），解析响应（数据，新URL）

Item Pipeline：Item对象，数据处理（数据存储）描述如下：

1.爬虫源url构造为请求对象-->爬虫中间件-->引擎-->调度器

2。调度器转换请求->引擎->下载中间件->下载

3。下载器发送请求并接收响应---->下载中间件---->引擎->索引器->索引器

4。爬虫提取URL地址并构造为查询对象---->索引器中间件->引擎->调度器，重复步骤2

5。爬虫提取数据—>引擎—>Pipeline处理并存储数据

Scrapy内置的三个对象

· request请求对象：由url方法post_data headers等组成。

·响应对象：由URL正文状态头等组成。

· 项目数据对象：本质上是一个字典

本文仅代表作者观点，不代表Code前端网立场。
本文系作者Code前端网发表，如需转载，请注明页面地址。

◎欢迎参与讨论，请在这里发表您的看法、交流您的观点。