最完整的scrapy使用crawl spider爬取全站数据的例子
下面通过一个例子练习一下我们使用crawl spider爬取全站数据的尴尬过程以及如何解析列表页和地址详情页在抓取过程中同时进行。并将其发送到该项目。
1。打开爬虫文件并设置请求。
我们设置初始站点的URL,在规则中我们设置权限的规律性,这样我们就可以浏览翻页的URL了
2。数据分析
这一步与之前的数据分析方法相同。 ,我们同样使用xpath来解析所需的数据,得到所需的标题信息。不同的是,我们通常会分析两条数据,即详情页的URL和名称。详情页URL作为重新启动请求的URL。但是,使用 spider 浏览,我们无法手动发送请求,因此我们只需解析名称即可。
3。发起详情页请求
上一步我们讲了爬取spider,因为无法手动发送请求,那么我们如何发起请求并获取详情页数据信息呢?就像翻页发起请求一样,我们设置权限规则来获取请求数据
4。分析详情页面上的数据
按照我们在上一步中开始的要求,我们需要在详情页面上进行自己的数据分析
5。定义item中的属性值
因为我们没有手动发送请求,所以无法将解析出来的两个数据放在一起一起发送给item,所以我们需要用第一个Each来自定义item方法项目类似于
6。将解析后的数据封装在一个item中并发送给通道
7。 Pipeline 设置
由于我们上一步分析的两个数据都是 item,所以 pipeline 无法确定哪个 item 应该有输出内容,所以我们通过 item 名称来判断:
8。打开管道并运行
版权声明
本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。