使用Python
Google Chrome抓包和网页数据分析分析某段落网站前20段页面(请求库)的爬行过程。结果如下:
网站地址:http://www.budejie。 com/text
网站数据通过html页面展示。网站默认的URL是第一页,http://www.budejie.com/text/2是第二页,以此类推
是的,分析网站内容的位置后发现,所有段落的内容都在标签中。仍然存在陷阱。这是我写的第一条常规规则:
content_list = re.findall(r' (.+?)', html_str)
后来发现它符合一些推荐内容。我最终将正常规则更改如下,发现没有问题。这里就不过多解释正常规则了
content_list = re.findall(r'
版权声明
本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。