Code前端首页关于Code前端联系我们

HTTP标头“X-Robots-Tag”认识一下,SEO和robots.txt搭配更佳

terry 2年前 (2023-09-26) 阅读数 48 #网站优化
引入HTTP头“允许爬取Net或禁用爬取,还有像X-Robots-Tag这样的HTTP头,你知道吗?使用此功能对搜索引擎和网站服务器都有好处,因为它可以通过禁用对网站某些不重要部分的爬行访问来减少服务器负载。

在进一步讨论之前,我们首先了解一下 robots.txt 文件的作用。简单来说,它的作用就是告诉搜索引擎不要抓取网站上的特定页面、文件或文件夹。

不建议通过 robots.txt 屏蔽整个网站,除非它是一个非常私密的网站。

X-Robots-Tag

2007 年,Google 宣布增加对 HTTP 响应标头中以编程方式设置的各种与 robots.txt 相关的指令的支持。

X-Robots-Tag 指令 ​​

有两种不同类型的指令:爬虫指令和索引器指令。本文简要解释了以下差异。

爬虫指令

robots.txt 文件仅包含“爬虫指令”,告诉搜索引擎它们可以或不可以去哪里。通过使用此指令,您可以指定允许搜索引擎抓取的位置:

Allow

此指令的作用恰恰相反(禁用抓取):

Disallow

此外,您可以使用以下指令来帮助搜索引擎更快地抓取您的网站(提交站点地图):

Sitemap

请注意,您还可以通过组合以下命令来指定不同搜索引擎的说明:

User-agent

但是,有时即使您 禁止 使用,仍然可以禁用某些资源 出现在搜索引擎结果中,表明仅使用 robots.txt 是不够的。

索引器指南

索引器指南是按页面和/或每个元素设置的指南。截至 2007 年 7 月,有两个带有 Meta Robots 标志的指令: rel="nofollow" (指示链接不应通过授权/PageRank)。

使用 Meta Robots 标签,您基本上可以防止搜索引擎显示您想要排除在搜索结果之外的页面。使用 X-Robots-Tag HTTP 标头可以实现相同的结果。如前所述,X-Robots-Tag 还提供对如何索引特定文件(类型)的控制,从而提供更大的灵活性。

的使用示例 如果你想组织搜索引擎跟踪这些页面上的链接,你可以点击下面的例子:
header("X-Robots-Tag: noindex, nofollow", true);

虽然在PHP中使用这种方法很方便,但是你也可以屏蔽一些特定的PHP 之外的文件类型,更好的方法是使用 X-Robots-Tag 添加到 Nginx/Apache 服务器配置或 .htaccess 文件。

如果网站提供 .doc 文件,但由于特定原因不希望搜索引擎索引该文件类型,您可以使用 X-Robots-Tag。在 Apache 服务器上,需要将以下行添加到文件 /.htaccess

<FilesMatch ".doc$">
Header set X-Robots-Tag "noindex, noarchive, nosnippet"
</FilesMatch>

如果您想对 .doc 和 .pdf 文件执行此操作:

<FilesMatch ".(doc|pdf)$">
Header set X-Robots-Tag "noindex, noarchive, nosnippet"
</FilesMatch>

如果您使用 Nginx除了 Apache,您还可以通过在服务器配置中添加以下内容来实现相同的效果:

location ~* \.(doc|pdf)$ {
    add_header  X-Robots-Tag "noindex, noarchive, nosnippet";
}

结论

如上例所示,X-Robots-Tag HTTP 标头是一个非常强大的工具,可用于与 与 robots.txt

一起使用以获得更好的效果。

版权声明

本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

热门