Python爬取百度贴吧前1000页(面向对象概念在应用库中的应用)
程序以李毅吧为例,采用面向对象的设计理念来爬取并存储网页数据。暂时没有使用同时处理,但是以后会做,有机会我会改进一下
- 先去百度贴吧分析吧地址贴吧中的url后面的参数,找到参数pn对应分页,参数kw对应名称Tieba
- 首先创建类,编写__init__方法,run方法,在__init__方法中,可以直接写pass
- 在run模式下,你可以整理一下大概思路
- 创建一个URL列表,因为1000个页面需要一个命令,每个页面都需要匹配URL
- 遍历并提交请求。获取结果
- 保存
- 进入记录过程的方式不同,所以这里还有另外三种方法
- get_url_list方法可以返回所有要访问的URL列表
- parse_url方法用于索取响应,并在最后返回html页面的内容
- save_html方法用于保存html字符串
- run方法是主要应用,结合了三个方法和使用的参数
- 每当参数存在时。使用后,可以在__init__中添加相应的实例属性
- 最后配置类并测试,html文件会一直保存在当前目录下
import requests
class TiebaSpider(object):
def __init__(self, tieba_name): # tieba_name为要爬取贴吧的名称
self.tieba_name = tieba_name
self.url_temp = 'https://tieba.baidu.com/f?kw=' + tieba_name + '&ie=utf-8&pn={}'
self.headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36',
}
def get_url_list(self): # 构造url列表
# url_list = []
# for i in range(1000):
# url_list.append(self.url_temp.format(i * 50))
# return url_list
return [self.url_temp.format(i*50) for i in range(1000)] # 列表推导式替换上面代码
def parse_url(self, url): # 发送请求,获取响应
print(url)
response = requests.get(url, headers=self.headers)
return response.content.decode()
def save_html(self, html_str, page_num): # 保存html字符串
file_path = '{}-第{}页.html'.format(self.tieba_name, page_num)
with open(file_path, 'w', encoding='utf-8') as f: # 样例: 李毅-第一页.html
f.write(html_str)
def run(self): # 实现主要逻辑
# 1.构造url列表
url_list = self.get_url_list()
# 2.遍历,发送请求,获取响应
for url in url_list:
html_str = self.parse_url(url)
# 3.保存
page_num = url_list.index(url) + 1 # 页码数
self.save_html(html_str, page_num)
if __name__ == '__main__':
tieba_spider = TiebaSpider('李毅')
tieba_spider.run() 版权声明
本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。
code前端网
