Code前端首页关于Code前端联系我们

Python爬取百度贴吧前1000页（面向对象概念在应用库中的应用）

terry 3年前 (2023-09-25) 阅读数 156 #后端开发

程序以李毅吧为例，采用面向对象的设计理念来爬取并存储网页数据。暂时没有使用同时处理，但是以后会做，有机会我会改进一下

先去百度贴吧分析吧地址贴吧中的url后面的参数，找到参数pn对应分页，参数kw对应名称Tieba
首先创建类，编写__init__方法，run方法，在__init__方法中，可以直接写pass
在run模式下，你可以整理一下大概思路
- 创建一个URL列表，因为1000个页面需要一个命令，每个页面都需要匹配URL
- 遍历并提交请求。获取结果
- 保存
进入记录过程的方式不同，所以这里还有另外三种方法
- get_url_list方法可以返回所有要访问的URL列表
- parse_url方法用于索取响应，并在最后返回html页面的内容
- save_html方法用于保存html字符串
- run方法是主要应用，结合了三个方法和使用的参数
每当参数存在时。使用后，可以在__init__中添加相应的实例属性
最后配置类并测试，html文件会一直保存在当前目录下

import requests


class TiebaSpider(object):
  def __init__(self, tieba_name): # tieba_name为要爬取贴吧的名称
    self.tieba_name = tieba_name
    self.url_temp = 'https://tieba.baidu.com/f?kw=' + tieba_name + '&ie=utf-8&pn={}'
    self.headers = {
      'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36',
    }

  def get_url_list(self): # 构造url列表
    # url_list = []
    # for i in range(1000):
    #   url_list.append(self.url_temp.format(i * 50))
    # return url_list
    return [self.url_temp.format(i*50) for i in range(1000)] # 列表推导式替换上面代码

  def parse_url(self, url): # 发送请求，获取响应
    print(url)
    response = requests.get(url, headers=self.headers)
    return response.content.decode()

  def save_html(self, html_str, page_num): # 保存html字符串
    file_path = '{}-第{}页.html'.format(self.tieba_name, page_num)
    with open(file_path, 'w', encoding='utf-8') as f: # 样例： 李毅-第一页.html
      f.write(html_str)

  def run(self): # 实现主要逻辑
    # 1.构造url列表
    url_list = self.get_url_list()
    # 2.遍历，发送请求，获取响应
    for url in url_list:
      html_str = self.parse_url(url)
      # 3.保存
      page_num = url_list.index(url) + 1 # 页码数
      self.save_html(html_str, page_num)


if __name__ == '__main__':
  tieba_spider = TiebaSpider('李毅')
  tieba_spider.run()

版权声明

本文仅代表作者观点，不代表Code前端网立场。
本文系作者Code前端网发表，如需转载，请注明页面地址。

上一篇：Python 如何使用 pymongo 模块控制 MongoDB 的示例下一篇：使用Python