Code前端首页关于Code前端联系我们

学习爬虫,如何搭建scratch框架?如何使用?

terry 2年前 (2023-09-24) 阅读数 53 #后端开发

Scrapy是学习爬虫非常重要的一环。它可以快速帮助我们筛选出我们想要的数据信息,因此本课我们将重点介绍如何使用scrapy。

1。如何搭建scrapy框架

第一步我们首先需要安装scrapy。

这一步就不过多介绍了。前面的课程也讲解了如何安装scrapy。

第二步,打开终端面板命令

点击pycharm左下角进入

学习爬虫,如何建立scrapy框架?怎么使用?

第三步,首先新建一个scrapy框架文件夹

首先使用终端面板找到我们想要制作的位置。比如我想在venv

学习爬虫,如何建立scrapy框架?怎么使用?

下新建一个文件夹,然后新建一个scrapy框架文件夹。主要格式为:scrapy+startproject+文件夹名称

学习爬虫,如何建立scrapy框架?怎么使用?

这样就在venv文件夹下新建了一个名为scrapyframework的文件夹。

学习爬虫,如何建立scrapy框架?怎么使用?

第四步,打开scrapy框架的文件夹

我们打开scrapy框架的文件夹,可以看到里面有一个同名的文件夹和一个cfg文件。当你打开同名文件夹时,它将是一个spider文件夹,其中Spider文件夹是我们输入代码和扫描数据的主文件夹。这时候我们需要在这个文件夹下新建爬虫文件

学习爬虫,如何建立scrapy框架?怎么使用?

第五步新建爬虫文件

首先和第一步一样。您必须首先找到文件

学习爬虫,如何建立scrapy框架?怎么使用?

,然后创建一个新的爬虫文件。主要格式为:scrapy + genspider + 文件名 + 普通域名

学习爬虫,如何建立scrapy框架?怎么使用?

因此,首先在桌面上新建一个同名的文件夹,用于写入我们的爬虫代码

学习爬虫,如何建立scrapy框架?怎么使用?

第六步,更改爬虫代码

一旦我们有了机器人搜索代码,我们就可以先修改代码来爬取我们想要的内容。比如下图中,我想把爬取的网址改成百度的地址,解析部分输出网站的代码

学习爬虫,如何建立scrapy框架?怎么使用?

代码部分改完后,我们需要更改spider文件夹中的设置,打开Spiders下的设置

学习爬虫,如何建立scrapy框架?怎么使用?

我们将ROBOTTXT_OBEY的值改为False,这表示爬取过程中不遵守机器人协议

学习爬虫,如何建立scrapy框架?怎么使用?

第七步,运行scrapy框架

输入以下代码:scrapy +crawl +爬虫文件名即可获取我们想要的数据

学习爬虫,如何建立scrapy框架?怎么使用?

版权声明

本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

热门