HTTP标头“X-Robots-Tag”认识一下,SEO和robots.txt搭配更佳
在进一步讨论之前,我们首先了解一下 robots.txt
文件的作用。简单来说,它的作用就是告诉搜索引擎不要抓取网站上的特定页面、文件或文件夹。
不建议通过 robots.txt
屏蔽整个网站,除非它是一个非常私密的网站。
X-Robots-Tag
2007 年,Google 宣布增加对 HTTP 响应标头中以编程方式设置的各种与 robots.txt 相关的指令的支持。
X-Robots-Tag 指令
有两种不同类型的指令:爬虫指令和索引器指令。本文简要解释了以下差异。
爬虫指令
robots.txt
文件仅包含“爬虫指令”,告诉搜索引擎它们可以或不可以去哪里。通过使用此指令,您可以指定允许搜索引擎抓取的位置:
Allow
此指令的作用恰恰相反(禁用抓取):
Disallow
此外,您可以使用以下指令来帮助搜索引擎更快地抓取您的网站(提交站点地图):
Sitemap
请注意,您还可以通过组合以下命令来指定不同搜索引擎的说明:
User-agent
但是,有时即使您 索引器指南是按页面和/或每个元素设置的指南。截至 2007 年 7 月,有两个带有 Meta Robots 标志的指令: 使用 Meta Robots 标签,您基本上可以防止搜索引擎显示您想要排除在搜索结果之外的页面。使用 X-Robots-Tag HTTP 标头可以实现相同的结果。如前所述,X-Robots-Tag 还提供对如何索引特定文件(类型)的控制,从而提供更大的灵活性。 虽然在PHP中使用这种方法很方便,但是你也可以屏蔽一些特定的PHP 之外的文件类型,更好的方法是使用 X-Robots-Tag 添加到 Nginx/Apache 服务器配置或 .htaccess 文件。 如果网站提供 .doc 文件,但由于特定原因不希望搜索引擎索引该文件类型,您可以使用 X-Robots-Tag。在 Apache 服务器上,需要将以下行添加到文件 如果您想对 .doc 和 .pdf 文件执行此操作: 如果您使用 Nginx除了 Apache,您还可以通过在服务器配置中添加以下内容来实现相同的效果: 如上例所示,X-Robots-Tag HTTP 标头是一个非常强大的工具,可用于与 与 robots.txt禁止 使用,仍然可以禁用某些资源 出现在搜索引擎结果中,表明仅使用
一起使用以获得更好的效果。robots.txt
是不够的。 索引器指南
rel="nofollow"
(指示链接不应通过授权/PageRank)。 的使用示例 如果你想组织搜索引擎跟踪这些页面上的链接,你可以点击下面的例子:
header("X-Robots-Tag: noindex, nofollow", true);
/.htaccess
: <FilesMatch ".doc$">
Header set X-Robots-Tag "noindex, noarchive, nosnippet"
</FilesMatch>
<FilesMatch ".(doc|pdf)$">
Header set X-Robots-Tag "noindex, noarchive, nosnippet"
</FilesMatch>
location ~* \.(doc|pdf)$ {
add_header X-Robots-Tag "noindex, noarchive, nosnippet";
}
结论
版权声明
本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。