Code前端首页关于Code前端联系我们

Scrapy 爬虫框架入门:了解基础知识

terry 2年前 (2023-09-24) 阅读数 51 #后端开发

1。概念:scrapy是一个用python编写的爬虫框架,用于爬取网络数据并提取结构数据的框架。使用 Twisted 的异步网络框架来加速下载。

2。特点:爬取速度快,代码量小。

3。工作流程

索引器工作流程:运行 URL — 下单 URL — 发送请求获取响应 — 解析响应 — 保存数据

其中,当网页需要旋转时,解析响应时再次检索。对 URL 重复步骤 2-4。 scrapy爬虫框架入门:理解基本概念索引框架scrapy爬虫框架入门:理解基本概念抓取流程

中间件:爬虫、可下载的中间件、自定义action,一般不需要自己写

绿色箭头:数据流向运行模块,负责传输数据以及不同模块之间的信号,类似于通信算子

Scheduler:调度器队列,存储引擎发送的请求请求(get pop)

Download:下载器

Spiders:爬虫,发起初始请求(URL封装) ),解析响应(数据,新URL)

Item Pipeline:Item对象,数据处理(数据存储)描述如下:

1.爬虫源url构造为请求对象-->爬虫中间件-->引擎-->调度器

2。调度器转换请求->引擎->下载中间件->下载

3。下载器发送请求并接收响应---->下载中间件---->引擎->索引器->索引器

4。爬虫提取URL地址并构造为查询对象---->索引器中间件->引擎->调度器,重复步骤2

5。爬虫提取数据—>引擎—>Pipeline处理并存储数据

Scrapy内置的三个对象

· request请求对象:由url方法post_data headers等组成。

·响应对象:由URL正文状态头等组成。

· 项目数据对象:本质上是一个字典

版权声明

本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

热门