Code前端首页关于Code前端联系我们

Googlebot、bingbot、Baiduspider...搜索引擎爬虫详解

terry 2年前 (2023-09-26) 阅读数 107 #网站优化

网络上会有很多网络爬虫对页面进行爬行。网站蜘蛛越好,蜘蛛就会越多。然而我们需要辨别蜘蛛的真伪,同时了解不同的蜘蛛。屏蔽一些网站不需要的蜘蛛,避免滋生“蜘蛛”。

Googlebot

Googlebot 是 Google 搜索引擎蜘蛛。截至2021年8月,Google全球市场份额为92.05%,排名第一(即最大),因此不建议屏蔽Googlebot。

Googlebot、bingbot、Baiduspider…搜索引擎蜘蛛爬虫详解

bingbot

bingbot Bingbot 是一个 Microsoft 搜索引擎。截至2021年8月,Bing在全球市场份额中排名第二,市场份额为2.45%。

Bing集成了多项独特功能,包括首页每日图片、与Windows操作系统深度集成的超级搜索功能、全新的搜索结果导航模式。用户可以通过Windows操作系统内置的搜索栏或默认的Edge搜索引擎,直接访问Bing的全球信息搜索服务,例如网站、图像、视频、词典、翻译、信息和地图。

随着Edge浏览器的普及以及Windows巨大的市场份额,Bing搜索引擎的国内份额将会不断提升。

Bing SEO:如何在Bing中展示更丰富的网站形式

Baiduspider

Baiduspider是百度的搜索引擎蜘蛛!

识别百度蜘蛛(Baiduspider)的简单步骤

百度UA应用程序:

Mozilla/5.0(iPhone;CPU iPhone OS 9_1作为Mac OS X)AppleWebKit/601HTML,Gecko).4601。 9.0 Mobile/13B143 Safari/601.1(兼容;Baiduspider-render/2.0;Smartapp;+http://www.baidu.com/search/spider.html)

Baiduspider详细介绍

图片搜索:Baiduspider-image

视频搜索:Baiduspider-video

新闻搜索:Baiduspider-news

百度收藏:Baiduspider-favo

百度联盟:Baiduspider-cprossearch‸ 网站及其他搜索:Baiduspider Bytesspider

Bytespider 该爬虫是字节跳动旗下今日头条搜索的爬虫。它的UA爬虫是:

如果我的网站遇到Bytespider爬虫怎么办?

#PC端omozilla/5.0(组合;bytespider;https://zhanzhang touchiao com/)

537.36(khtml,如Gecko)Chrome/70.0.0.0 SAF ARI/537.36/#Android端♸♸ /5.0(Linux;Android 5.0)AppleWebKit/537.36(KHTML,如 Gecko)

Mobile Safari/537.36(兼容;Bytespider;https://zhanzhang toutiao com/)

5 Mozilla/5 ♸ ( i电话; CPU iPhone OS 7_1_2作为Mac OS爬虫

如果您不想今日头条搜索爬取自己的网站,可以使用以下两种方式屏蔽今日头条搜索爬虫:

#IP屏蔽

今日头条搜索IP字段总共包含 10 个 IP 地址。具体字段如下:

110.249.201.0/24

110.249.202.0/24

111.225.148.0/25111.225.148.0/24.41..

220.243.135.0/24

2 20.243 .136.0/24

220.243.188.0/24

220.243.189.0/24

60.8.123.0/1560.8.123.0。 24

#屏蔽robots.txt

Bytespider遵守机器人规则,可以使用以下方式屏蔽:

用户代理:Bytespider

禁止:/

有关蜘蛛的更多问题,发送邮件至:zhanzhang@bytedance como搜索❙

今日头条搜索页图片是通用的,是通过og:image(开放图谱协议元)标签来标识的,所以如果你想要一个网站旁边有漂亮合理的图片,您可以在网站上添加 Open Graph Protocol Meta 标签

Yisouspider

Yisouspider 是一个可搜索的蜘蛛。

YandexBot

俄罗斯搜索巨头 Yandex 的蜘蛛。

360蜘蛛

360寻找蜘蛛。

PetalBot

PetalBot 是华为自己的搜索引擎 Petal Spider 的浏览器。未来它还可能在中国创建另一个搜索引擎。华为花瓣查找器目前仅适用于欧洲用户。

PetalBot 符合互联网机器人协议。您可以使用 robots.txt 文件完全阻止 PetalBot 访问您的网站,或阻止 PetalBot 访问您网站上的某些文件。

PetalBot 需要保持一定水平的网络爬行才能获得对目标资源更好的搜索结果。我们尽量不给网站带来过度的压力,并会根据服务器容量、网站质量、网站更新等复杂因素进行调整。如果您在访问 PetalBot 时遇到任何不当行为,请将您的疑虑发送至 search@aspiegel.com。

搜狗网络蜘蛛

搜狗搜索引擎蜘蛛。

AhrefsBot

AhrefsBot是国外网站的蜘蛛程序,那么Ahrefs网站是什么呢?这是国外的一个网络营销网站,有点类似于5118家园网、站长网等,在SEO方面享誉全球。 AhrefsBot 数据库中有超过 12 万亿个链接。每天持续开展和监控 Ahrefs 在线营销活动。它每 24 小时访问超过 60 亿个网站,每 15-30 分钟更新一次索引。一项调查显示,

AhrefsBot 是全球第二活跃的蜘蛛爬虫,仅次于 Googlebot。

AhrefsBot 会增加您服务器的负载,并且不会对您的网站产生影响。它不会在网站上投放广告或增加统计流量。建议屏蔽 AhrefsBot

SemrushBot

SemrushBot 是 SEMrush 的蜘蛛爬虫。

SEMrush 是一家成熟的搜索引擎优化数据公司。它是一个强大且全面的在线营销竞争情报平台,包括SEO、PPC、社交媒体和视频广告研究。

建议网站屏蔽其浏览。首先,蜘蛛的这种爬行不会给网站带来流量,只会占用服务器资源。其次,它是数据分析公司的爬虫,它爬取的数据成为你的竞争对手。对手的分析工具。

如何阻止 SemrushBot?只需将以下代码添加到文件

robots.txt:

用户代理:SemrushBot

禁止:/♽用户代理:‸用户代理:SemrushBot-SA BLEXBot

Blexbot 是一个 WebMeUp 蜘蛛爬虫。 Blexbot 每天可以抓取数百亿个页面来收集反向链接数据,并将这些数据提供给其链接索引(SEO SpyGlass 中使用的链接索引)。

WebMeUp 是美国的一个反向链接查找网站。其一般形式为

Mozilla/5.0(兼容;BLEXBot/1.0;+ http://webmeup-crawler.com/)

AdsBot

Adsbot 是一个 Google AdWords 蜘蛛,是一个广告联盟。

MJ12bot

MJ12bot 是 Majestic(一家成熟的英国搜索引擎营销网站)的索引器。它有专门的中文网站,并为外部链接查询等许多SEO数据查询提供数据支持。任何建立过外部链接的人都知道,获取外部链接是一项基本技能。本网站可能会检测外部网站链接的来源数量。不过很多公司在日志中看到MJ12bot蜘蛛,一般会选择直接屏蔽(MJ12bot是Majestic-12分布式搜索引擎的爬虫。)

官方的方法是允许修改robots,也就是在robots.txt文件:

User -agent:MJ12bot

Disallow:/

DotBot

DotBot是来自Moz的网络爬虫,一个专门用于数据分析的SEOexplorer网站,用于分析SEO链接。 。 BotBot蜘蛛爬虫服务于Moz,它爬取互联网上大量的网站进行各种数据分析。

如果我们不希望Dotbot抓取我们的网站,我们可以使用robots.txt文件阻止它。 DotBot 符合 robots.txt 标准。

DotBot 蜘蛛爬虫原型

Moz 蜘蛛爬虫 UA:“Mozilla/5.0(兼容;DotBot/1.1;

http://www.opensiteexplorer.org/dotcombot),help@mozilla 如何禁用爬行网络上的 DotBot

将以下代码写入我们网站根目录下的 robots.txt 文件中:

User-Agent: DotBot❝Disallow:❙‸Applebot:/♸ Applebot 就是Apple 推出的网络爬虫。Siri 建议和 Spotlight 建议等产品使用 Applebot。该工具遵循常见的 robots.txt 规则和 robots 元标记,并源自 17.0.0.0 网络块。

用户代理字符串包含“Applebot”和更多代理信息 示例如下:

Mozilla/5.0 (Macintosh; Intel Mac OS) CCbot,全称 Common Crawl Bot,是一个非盈利基金会,致力于提供网络爬虫的开放存储库它可以访问和分析他的每一个数据。

版权声明

本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

热门