Scrapy爬虫学习笔记：安装及VS CODE配置

terry 2年前 (2023-09-24) 阅读数 72 #后端开发

1.环境工程

1。本文的工作环境

代码编辑器：Visual Studio Code：1.76.2（推荐）
操作系统：Windows 11专业版22H2
Python：3.10.7❀2。安装虚拟环境

# 安装虚拟环境模块
pip install virtualenv
pip install virtualenvwrapper-win

virtualenv 20.21.0
virtualenvwrapper-win 1.2.7
Scrapy 2.8.0

3 。虚拟环境用法

windows 新建系统环境变量：WORKON_HOME 值为自建的envs目录，例如D:pythonenvs。主要使用爬虫

(pachong-env) D:pythonenvspachong-env>scrapy
Scrapy 2.8.0 - no active project

Usage:
  scrapy <command> [options] [args]

Available commands:
  bench         Run quick benchmark test
  fetch         Fetch a URL using the Scrapy downloader
  genspider     Generate new spider using pre-defined templates
  runspider     Run a self-contained spider (without creating a project)
  settings      Get settings values
  shell         Interactive scraping console
  startproject  Create new project
  version       Print Scrapy version
  view          Open URL in browser, as seen by Scrapy

  [ more ]      More commands available when run from project directory

Use "scrapy <command> -h" to see more info about a command

5。 VSCode 设置

安装完以上环境和模块后，如果使用 VSCode 编写爬虫 python 代码，需要设置 python 解释器：

显示所有命令 InputInput❙t 搭建虚拟环境 pachong -env

2.爬虫初识

1.基本例程

操作过程中有任何问题，欢迎在评论区留言

学习基本环境设置（如上）
学习HTML基础知识：先分析目标网站并指定要爬取的内容
了解Python基础知识：写一点代码

2.创建一个爬虫

示例：爬取朗文词典网站词解释（❀请勿非法爬取））如本例所示查找单词：good

# 进入虚拟环境
C:Usersadministrator>workon pachong-env

# 进入虚拟环境目录
(pachong-env) C:Usersadministrator>cdvirtualenv

# 创建一个爬虫项目longman
(pachong-env) d:pythonenvspachong-env>scrapy startproject longman
New Scrapy project 'longman', using template directory 'd:pythonenvspachong-envlibsite-packagesscrapytemplatesproject', created in:
    d:pythonenvspachong-envlongman

You can start your first spider with:
    cd longman
    scrapy genspider example example.com

# 进入项目目录longman
(pachong-env) d:pythonenvspachong-env>cd longman

# 创建一个爬虫
(pachong-env) d:pythonenvspachong-envlongman>scrapy genspider getDict longman.org
Created spider 'getDict' using template 'basic' in module:
  longman.spiders.getDict

在这里您可以创建一个名为 longman 的爬虫项目。项目目录为：

d:pythonenvspachong-envlongman

，其中包含一个名为getDict的爬虫，路径为：

d:pythonenvspachong-envlongmanlongmanspidersgetDict.py

3。自动生成的代码

getDict.py

getDict.py 内容，仅评论

scrapy genspider 添加到 Scrapy 框架用于创建新蜘蛛的命令。 Spider是Scrapy的核心组件，定义了如何从网站爬取和解析数据。

和getDict是创建Spider时指定的Spider名称，通常与被爬取的网站的主题或域名相关联。

因此，scrapy genspider getDict longman.org 意味着从在线数据手册 longman.org 中创建一个名为 getLgetL的蜘蛛。爬虫现在什么也做不了，通过就意味着跳过，以后就得自己写代码了。

Spider 文件getDict.py从scrapy genspider getDict longman.org创建，包含以下代码❙包含d❙Getdict Spider 类 Spider ，它继承了Scrapy Spider 类。它包含以下属性和方法：

name：蜘蛛的名称，'getDict'在此处指定。
allowed_domains：允许抓取域名，这里指定'longman.org'。
start_urls：此处抓取的 URL 设置为 ['http://www.longman.org/']。
parse：Spider默认的回调函数。当Spider下载页面时，它会调用该函数来处理页面响应的内容。

在这段代码中，方法parse被定义为空，这意味着当Spider下载页面时，它不执行任何操作，只是跳过该页面。要实现特定页面的解析逻辑，您需要在该方法中添加自己的代码。

`3。明确的目标`

`1。手动搜索`

在朗文网站搜索框中输入good，按回车键搜索，找到good？ F12或右键勾选，打开开发者工具界面：开发者❙

good 的含义是 Div 块中的类名“ Entry_content" "，即我们需要爬取的页面内容。？只需几行代码即可获得您想要的结果。如有必要，可以进一步处理结果。您还可以将结果保存到本地文件或数据库。

版权声明

本文仅代表作者观点，不代表Code前端网立场。
本文系作者Code前端网发表，如需转载，请注明页面地址。

上一篇：Scrapy框架教程：POST请求实现案例下一篇：scrapy

发表评论:取消回复

◎欢迎参与讨论，请在这里发表您的看法、交流您的观点。