Python爬取百度贴吧前1000页(面向对象概念在应用库中的应用)
程序以李毅吧为例,采用面向对象的设计理念来爬取并存储网页数据。暂时没有使用同时处理,但是以后会做,有机会我会改进一下
- 先去百度贴吧分析吧地址贴吧中的url后面的参数,找到参数pn对应分页,参数kw对应名称Tieba
- 首先创建类,编写__init__方法,run方法,在__init__方法中,可以直接写pass
- 在run模式下,你可以整理一下大概思路
- 创建一个URL列表,因为1000个页面需要一个命令,每个页面都需要匹配URL
- 遍历并提交请求。获取结果
- 保存
- 进入记录过程的方式不同,所以这里还有另外三种方法
- get_url_list方法可以返回所有要访问的URL列表
- parse_url方法用于索取响应,并在最后返回html页面的内容
- save_html方法用于保存html字符串
- run方法是主要应用,结合了三个方法和使用的参数
- 每当参数存在时。使用后,可以在__init__中添加相应的实例属性
- 最后配置类并测试,html文件会一直保存在当前目录下
import requests class TiebaSpider(object): def __init__(self, tieba_name): # tieba_name为要爬取贴吧的名称 self.tieba_name = tieba_name self.url_temp = 'https://tieba.baidu.com/f?kw=' + tieba_name + '&ie=utf-8&pn={}' self.headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36', } def get_url_list(self): # 构造url列表 # url_list = [] # for i in range(1000): # url_list.append(self.url_temp.format(i * 50)) # return url_list return [self.url_temp.format(i*50) for i in range(1000)] # 列表推导式替换上面代码 def parse_url(self, url): # 发送请求,获取响应 print(url) response = requests.get(url, headers=self.headers) return response.content.decode() def save_html(self, html_str, page_num): # 保存html字符串 file_path = '{}-第{}页.html'.format(self.tieba_name, page_num) with open(file_path, 'w', encoding='utf-8') as f: # 样例: 李毅-第一页.html f.write(html_str) def run(self): # 实现主要逻辑 # 1.构造url列表 url_list = self.get_url_list() # 2.遍历,发送请求,获取响应 for url in url_list: html_str = self.parse_url(url) # 3.保存 page_num = url_list.index(url) + 1 # 页码数 self.save_html(html_str, page_num) if __name__ == '__main__': tieba_spider = TiebaSpider('李毅') tieba_spider.run()
版权声明
本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。