学习爬虫,如何搭建scratch框架?如何使用?
Scrapy是学习爬虫非常重要的一环。它可以快速帮助我们筛选出我们想要的数据信息,因此本课我们将重点介绍如何使用scrapy。
1。如何搭建scrapy框架
第一步我们首先需要安装scrapy。
这一步就不过多介绍了。前面的课程也讲解了如何安装scrapy。
第二步,打开终端面板命令
点击pycharm左下角进入
第三步,首先新建一个scrapy框架文件夹
首先使用终端面板找到我们想要制作的位置。比如我想在venv
下新建一个文件夹,然后新建一个scrapy框架文件夹。主要格式为:scrapy+startproject+文件夹名称
这样就在venv文件夹下新建了一个名为scrapyframework的文件夹。
第四步,打开scrapy框架的文件夹
我们打开scrapy框架的文件夹,可以看到里面有一个同名的文件夹和一个cfg文件。当你打开同名文件夹时,它将是一个spider文件夹,其中Spider文件夹是我们输入代码和扫描数据的主文件夹。这时候我们需要在这个文件夹下新建爬虫文件
第五步新建爬虫文件
首先和第一步一样。您必须首先找到文件
,然后创建一个新的爬虫文件。主要格式为:scrapy + genspider + 文件名 + 普通域名
因此,首先在桌面上新建一个同名的文件夹,用于写入我们的爬虫代码
第六步,更改爬虫代码
一旦我们有了机器人搜索代码,我们就可以先修改代码来爬取我们想要的内容。比如下图中,我想把爬取的网址改成百度的地址,解析部分输出网站的代码
代码部分改完后,我们需要更改spider文件夹中的设置,打开Spiders下的设置
我们将ROBOTTXT_OBEY的值改为False,这表示爬取过程中不遵守机器人协议
第七步,运行scrapy框架
输入以下代码:scrapy +crawl +爬虫文件名即可获取我们想要的数据
版权声明
本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。