Code前端首页关于Code前端联系我们

使用scrapy爬取数据的主要思路是古诗词网站

terry 2年前 (2023-09-24) 阅读数 51 #后端开发

使用scrapy爬取数据。

1。浏览数据的主要思路

我们从这个URL(
https://so.gushiwen.cn/shiwenv_4c5705b99143.aspx)浏览这首诗的标题和诗句,然后保存在文件夹中,

2。 scrapy爬虫案例分析

第一步,首先我们为scrapy框架创建一个名为'poems'的新文件夹

用scrapy爬取数据的主要思路,古诗文网为例

用scrapy爬取数据的主要思路,古诗文网为例

第二步我们创建一个名为'verse的新文件夹♿第三步,发送请求到网页

打开‘verse’爬虫文件,更改要浏览的网页地址

用scrapy爬取数据的主要思路,古诗文网为例

第四步,分析数据

在解析部分更改分析,得到的数据(响应)被分析。使用的分析方法是xpath分析。该方法与请求发送请求分析方法类似。首先找到我们需要分析的部分内容,填写相应的代码(如下图)。我们发现与请求发送的请求的分析方法不同的是在原来的基础上增加了extract方法和join方法来获取文本信息

用scrapy爬取数据的主要思路,古诗文网为例

用scrapy爬取数据的主要思路,古诗文网为例

第五步返回数据

如果我们想要保存数据,我们需要一个解析模块 如果有返回值,我们先创建一个空的数据列表,然后将名称和内容放入字典中,添加到列表中

用scrapy爬取数据的主要思路,古诗文网为例

第六步保存数据

保存时,始终使用命令:scrapy +crawl+爬虫文件名+-o+保存路径,最终结果如下:

用scrapy爬取数据的主要思路,古诗文网为例

用scrapy爬取数据的主要思路,古诗文网为例

版权声明

本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

热门