使用Python

terry 2年前 (2023-09-25) 阅读数 49 #后端开发

Google Chrome抓包和网页数据分析分析某段落网站前20段页面（请求库）的爬行过程。结果如下：

网站地址：http://www.budejie。 com/text

网站数据通过html页面展示。网站默认的URL是第一页，http://www.budejie.com/text/2是第二页，以此类推

是的，分析网站内容的位置后发现，所有段落的内容都在标签中。仍然存在陷阱。这是我写的第一条常规规则：

content_list = re.findall(r' (.+?)', html_str)

后来发现它符合一些推荐内容。我最终将正常规则更改如下，发现没有问题。这里就不过多解释正常规则了

content_list = re.findall(r'

\s*(.+?)', html_str )
 现在我们要扫描前 20 页的段落并将它们保存在本地。现在我们知道了页面轮播规则和内容匹配规则，我们就可以直接编写代码了。

本文仅代表作者观点，不代表Code前端网立场。
本文系作者Code前端网发表，如需转载，请注明页面地址。

◎欢迎参与讨论，请在这里发表您的看法、交流您的观点。