Code前端首页关于Code前端联系我们

使用Python

terry 2年前 (2023-09-25) 阅读数 49 #后端开发

Google Chrome抓包和网页数据分析分析某段落网站前20段页面(请求库)的爬行过程。结果如下:

网站地址:http://www.budejie。 com/text

网站数据通过html页面展示。网站默认的URL是第一页,http://www.budejie.com/text/2是第二页,以此类推

是的,分析网站内容的位置后发现,所有段落的内容都在标签中。仍然存在陷阱。这是我写的第一条常规规则:

content_list = re.findall(r' (.+?)', html_str)

后来发现它符合一些推荐内容。我最终将正常规则更改如下,发现没有问题。这里就不过多解释正常规则了

content_list = re.findall(r'

\s*(.+?)', html_str )

现在我们要扫描前 20 页的段落并将它们保存在本地。现在我们知道了页面轮播规则和内容匹配规则,我们就可以直接编写代码了。

版权声明

本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

热门