Scrapy爬虫学习笔记:安装及VS CODE配置
1.环境工程
1。本文的工作环境
代码编辑器:Visual Studio Code:1.76.2(推荐)
操作系统:Windows 11专业版22H2
Python:3.10.7❀2。安装虚拟环境
# 安装虚拟环境模块
pip install virtualenv
pip install virtualenvwrapper-win
virtualenv 20.21.0
virtualenvwrapper-win 1.2.7
Scrapy 2.8.0
3 。虚拟环境 用法
windows 新建系统环境变量:WORKON_HOME
值为自建的envs目录,例如D:pythonenvs。主要使用爬虫
(pachong-env) D:pythonenvspachong-env>scrapy
Scrapy 2.8.0 - no active project
Usage:
scrapy <command> [options] [args]
Available commands:
bench Run quick benchmark test
fetch Fetch a URL using the Scrapy downloader
genspider Generate new spider using pre-defined templates
runspider Run a self-contained spider (without creating a project)
settings Get settings values
shell Interactive scraping console
startproject Create new project
version Print Scrapy version
view Open URL in browser, as seen by Scrapy
[ more ] More commands available when run from project directory
Use "scrapy <command> -h" to see more info about a command
5。 VSCode 设置
安装完以上环境和模块后,如果使用 VSCode 编写爬虫 python 代码,需要设置 python 解释器:
显示所有命令 InputInput❙t 搭建虚拟环境 pachong -env
2.爬虫初识
1.基本例程
操作过程中有任何问题,欢迎在评论区留言
学习基本环境设置(如上)
学习HTML基础知识:先分析目标网站并指定要爬取的内容
了解Python基础知识:写一点代码
2.创建一个爬虫
示例:爬取朗文词典网站词解释(❀请勿非法爬取) )如本例所示查找单词:good
# 进入虚拟环境
C:Usersadministrator>workon pachong-env
# 进入虚拟环境目录
(pachong-env) C:Usersadministrator>cdvirtualenv
# 创建一个爬虫项目longman
(pachong-env) d:pythonenvspachong-env>scrapy startproject longman
New Scrapy project 'longman', using template directory 'd:pythonenvspachong-envlibsite-packagesscrapytemplatesproject', created in:
d:pythonenvspachong-envlongman
You can start your first spider with:
cd longman
scrapy genspider example example.com
# 进入项目目录longman
(pachong-env) d:pythonenvspachong-env>cd longman
# 创建一个爬虫
(pachong-env) d:pythonenvspachong-envlongman>scrapy genspider getDict longman.org
Created spider 'getDict' using template 'basic' in module:
longman.spiders.getDict
在这里您可以创建一个名为 longman 的爬虫项目。项目目录为:
d:pythonenvspachong-envlongman
,其中包含一个名为getDict的爬虫,路径为:
d:pythonenvspachong-envlongmanlongmanspidersgetDict.py
3。自动生成的代码
getDict.py
getDict.py 内容,仅评论
scrapy genspider
添加到 Scrapy 框架 用于创建新蜘蛛的命令。 Spider是Scrapy的核心组件,定义了如何从网站爬取和解析数据。
和getDict
是创建Spider时指定的Spider名称,通常与被爬取的网站的主题或域名相关联。
因此, Spider 文件 在这段代码中,方法 在朗文网站搜索框中输入good,按回车键搜索,找到good? F12或右键勾选,打开开发者工具界面:开发者❙ good 的含义是 Div 块中的类名“ Entry_content" ",即我们需要爬取的页面内容。 ? 只需几行代码即可获得您想要的结果。 scrapy genspider getDict longman.org
意味着从在线数据手册 longman.org 中创建一个名为 getLgetL的蜘蛛。爬虫现在什么也做不了,通过就意味着跳过,以后就得自己写代码了。
getDict.py
从scrapy genspider getDict longman.org
创建,包含以下代码❙包含d❙Getdict Spider
类 Spider ,它继承了Scrapy Spider
类。它包含以下属性和方法: name
:蜘蛛的名称,'getDict'
在此处指定。 allowed_domains
:允许抓取域名,这里指定'longman.org'
。 start_urls
:此处抓取的 URL 设置为 ['http://www.longman.org/']
。 parse
:Spider默认的回调函数。当Spider下载页面时,它会调用该函数来处理页面响应的内容。 parse
被定义为空,这意味着当Spider下载页面时,它不执行任何操作,只是跳过该页面。要实现特定页面的解析逻辑,您需要在该方法中添加自己的代码。3。明确的目标
1。手动搜索
如有必要,可以进一步处理结果。
您还可以将结果保存到本地文件或数据库。
版权声明
本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。