Code前端首页关于Code前端联系我们

Python爬取百度贴吧前1000页(面向对象概念在应用库中的应用)

terry 2年前 (2023-09-25) 阅读数 51 #后端开发

程序以李毅吧为例,采用面向对象的设计理念来爬取并存储网页数据。暂时没有使用同时处理,但是以后会做,有机会我会改进一下

  • 先去百度贴吧分析吧地址贴吧中的url后面的参数,找到参数pn对应分页,参数kw对应名称Tieba
  • 首先创建类,编写__init__方法,run方法,在__init__方法中,可以直接写pass
  • 在run模式下,你可以整理一下大概思路
    • 创建一个URL列表,因为1000个页面需要一个命令,每个页面都需要匹配URL
    • 遍历并提交请求。获取结果
    • 保存
  • 进入记录过程的方式不同,所以这里还有另外三种方法
    • get_url_list方法可以返回所有要访问的URL列表
    • parse_url方法用于索取响应,并在最后返回html页面的内容
    • save_html方法用于保存html字符串
    • run方法是主要应用,结合了三个方法和使用的参数
  • 每当参数存在时。使用后,可以在__init__中添加相应的实例属性
  • 最后配置类并测试,html文件会一直保存在当前目录下
import requests


class TiebaSpider(object):
  def __init__(self, tieba_name): # tieba_name为要爬取贴吧的名称
    self.tieba_name = tieba_name
    self.url_temp = 'https://tieba.baidu.com/f?kw=' + tieba_name + '&ie=utf-8&pn={}'
    self.headers = {
      'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36',
    }

  def get_url_list(self): # 构造url列表
    # url_list = []
    # for i in range(1000):
    #   url_list.append(self.url_temp.format(i * 50))
    # return url_list
    return [self.url_temp.format(i*50) for i in range(1000)] # 列表推导式替换上面代码

  def parse_url(self, url): # 发送请求,获取响应
    print(url)
    response = requests.get(url, headers=self.headers)
    return response.content.decode()

  def save_html(self, html_str, page_num): # 保存html字符串
    file_path = '{}-第{}页.html'.format(self.tieba_name, page_num)
    with open(file_path, 'w', encoding='utf-8') as f: # 样例: 李毅-第一页.html
      f.write(html_str)

  def run(self): # 实现主要逻辑
    # 1.构造url列表
    url_list = self.get_url_list()
    # 2.遍历,发送请求,获取响应
    for url in url_list:
      html_str = self.parse_url(url)
      # 3.保存
      page_num = url_list.index(url) + 1 # 页码数
      self.save_html(html_str, page_num)


if __name__ == '__main__':
  tieba_spider = TiebaSpider('李毅')
  tieba_spider.run()

版权声明

本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

热门