Code前端首页关于Code前端联系我们

Scrapy爬虫学习笔记:安装及VS CODE配置

terry 2年前 (2023-09-24) 阅读数 72 #后端开发

1.环境工程

1。本文的工作环境

代码编辑器:Visual Studio Code:1.76.2(推荐)
操作系统:Windows 11专业版22H2
Python:3.10.7❀2。安装虚拟环境

# 安装虚拟环境模块
pip install virtualenv
pip install virtualenvwrapper-win

virtualenv 20.21.0
virtualenvwrapper-win 1.2.7
Scrapy 2.8.0

3 。虚拟环境 用法

windows 新建系统环境变量:WORKON_HOME 值为自建的envs目录,例如D:pythonenvs。主要使用爬虫

(pachong-env) D:pythonenvspachong-env>scrapy
Scrapy 2.8.0 - no active project

Usage:
  scrapy <command> [options] [args]

Available commands:
  bench         Run quick benchmark test
  fetch         Fetch a URL using the Scrapy downloader
  genspider     Generate new spider using pre-defined templates
  runspider     Run a self-contained spider (without creating a project)
  settings      Get settings values
  shell         Interactive scraping console
  startproject  Create new project
  version       Print Scrapy version
  view          Open URL in browser, as seen by Scrapy

  [ more ]      More commands available when run from project directory

Use "scrapy <command> -h" to see more info about a command

5。 VSCode 设置

安装完以上环境和模块后,如果使用 VSCode 编写爬虫 python 代码,需要设置 python 解释器: Scrapy爬虫学习笔记:安装及VS CODE配置

显示所有命令 InputInput❙t 搭建虚拟环境 pachong -env

2.爬虫初识

1.基本例程

操作过程中有任何问题,欢迎在评论区留言

学习基本环境设置(如上)
学习HTML基础知识:先分析目标网站并指定要爬取的内容
了解Python基础知识:写一点代码

2.创建一个爬虫

示例:爬取朗文词典网站词解释(❀请勿非法爬取) )如本例所示查找单词:good

# 进入虚拟环境
C:Usersadministrator>workon pachong-env

# 进入虚拟环境目录
(pachong-env) C:Usersadministrator>cdvirtualenv

# 创建一个爬虫项目longman
(pachong-env) d:pythonenvspachong-env>scrapy startproject longman
New Scrapy project 'longman', using template directory 'd:pythonenvspachong-envlibsite-packagesscrapytemplatesproject', created in:
    d:pythonenvspachong-envlongman

You can start your first spider with:
    cd longman
    scrapy genspider example example.com

# 进入项目目录longman
(pachong-env) d:pythonenvspachong-env>cd longman

# 创建一个爬虫
(pachong-env) d:pythonenvspachong-envlongman>scrapy genspider getDict longman.org
Created spider 'getDict' using template 'basic' in module:
  longman.spiders.getDict

在这里您可以创建一个名为 longman 的爬虫项目。项目目录为:

d:pythonenvspachong-envlongman

,其中包含一个名为getDict的爬虫,路径为:

d:pythonenvspachong-envlongmanlongmanspidersgetDict.py

3。自动生成的代码

getDict.pyScrapy爬虫学习笔记:安装及VS CODE配置

getDict.py 内容,仅评论

scrapy genspider 添加到 Scrapy 框架 用于创建新蜘蛛的命令。 Spider是Scrapy的核心组件,定义了如何从网站爬取和解析数据。

getDict是创建Spider时指定的Spider名称,通常与被爬取的网站的主题或域名相关联。

因此,scrapy genspider getDict longman.org 意味着从在线数据手册 longman.org 中创建一个名为 getLgetL的蜘蛛。爬虫现在什么也做不了,通过就意味着跳过,以后就得自己写代码了。

Spider 文件getDict.pyscrapy genspider getDict longman.org创建,包含以下代码❙包含d❙Getdict Spider 类 Spider ,它继承了Scrapy Spider 类。它包含以下属性和方法:

  • name:蜘蛛的名称,'getDict'在此处指定。
  • allowed_domains:允许抓取域名,这里指定'longman.org'
  • start_urls:此处抓取的 URL 设置为 ['http://www.longman.org/']
  • parse:Spider默认的回调函数。当Spider下载页面时,它会调用该函数来处理页面响应的内容。

在这段代码中,方法parse被定义为空,这意味着当Spider下载页面时,它不执行任何操作,只是跳过该页面。要实现特定页面的解析逻辑,您需要在该方法中添加自己的代码。

3。明确的目标

1。手动搜索

在朗文网站搜索框中输入good,按回车键搜索,找到good? F12或右键勾选,打开开发者工具界面:开发者❙Scrapy爬虫学习笔记:安装及VS CODE配置

good 的含义是 Div 块中的类名“ Entry_content" ",即我们需要爬取的页面内容。 ? 只需几行代码即可获得您想要的结果。
如有必要,可以进一步处理结果。
您还可以将结果保存到本地文件或数据库。

版权声明

本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

热门