Code前端首页关于Code前端联系我们

noinde x meta标签有效阻止和阻止搜索引擎收录网页

terry 2年前 (2023-09-26) 阅读数 44 #网站优化

如何有效阻止网页就是使用noinde x meta标签。本文将进行详细的介绍。

noindex元标记有效阻止和屏蔽搜素引擎收录网页

noindex 和 robots.txt

要防止您的页面出现在搜索结果中,您可以将 noindex 元标记添加到页面的 HTML 代码中或在 HTTP 请求中生成“noindex”标头。下次爬虫抓取该页面并看到标签或标题时,该页面将被完全阻止出现在搜索结果中(无论其他网站是否链接到该页面)。

重要提示!

为了让 noindex 的指令生效,网页不得被 robots.txt 文件屏蔽。如果该页面被 robots.txt 文件阻止,则爬网程序将无法看到 noindex 指令,因此该页面可能会出现在搜索结果中(例如,如果其他页面链接到该页面)。

如果您没有服务器的根访问权限,您可以使用非常有用的 noindex 工具来控制搜索引擎对您网站上各个页面的访问。

实现noindex

您可以通过两种方式实现noindex:使用noindex作为元标记,或作为HTTP响应标头。两种方法是相同的,但您可以根据您对服务器的控制级别以及您使用的特定发布过程来选择哪一种更方便。

标记

要防止搜索引擎网络爬虫对您网站上的页面建立索引,请在页面的 部分插入以下元标记:

要阻止百度网络爬虫将您的页面编入索引,请插入以下元标记:

要阻止 Google 网络爬虫要索引页面,请放置以下元标记:

阻止所有蜘蛛爬虫抓取此页面的方法是:

请注意,某些搜索引擎网络爬虫可能会阻止 noindex 命令。有多种解释,因此您的页面可能仍会出现在其他搜索引擎结果中。

◆ 帮助搜索引擎找到您的 noindex 元标记

元标记仅在抓取您的页面后才会出现。如果您的网页仍然出现在搜索结果中,可能是因为自您添加标记以来搜索引擎尚未抓取您的网站。您可以主动将您的网页提交给搜索引擎,并让爬虫重新抓取您的网页。或者,您可能看不到此标记,因为您的 robots.txt 文件阻止抓取工具访问该网址。要允许搜索引擎访问您的网页,您需要编辑 robots.txt 文件。

HTTP 响应标头

除了使用元标记之外,您还可以在具有 noindex 值或无值的响应中生成 X-Robots-Tag 标头。以下 HTTP 响应示例包含 X-Robots-Tag,它告诉爬网程序不要为页面建立索引:

HTTP/1.1 200 OK
(...), X -Robots -Tag 用于网站 HTTP 响应。在 HTTP 响应中使用 X-Robots-Tag 的好处是您可以指定适用于所有网站的抓取指令。系统对正则表达式的支持提供了高度的灵活性。

例如,要将 noindex、nofollow X-Robots-Tag 添加到网站上所有 .PDF 文件的 HTTP 响应中,请将以下代码段添加到网站的根 .htaccess 文件或 httpd.conf 文件中:


标头集 HTML 文件(例如图像文件)使用 X-Robots-Tag。下面的例子展示了如何添加 noindex ?g|gif)$">
设置 Header Tag 元机器人和爬虫在抓取页面时发现的 HTTP header X-Robots-Tag。如果您阻止页面被抓取通过robots.txt文件,爬虫不会找到任何有关内容索引/显示指令的信息,并且会忽略该指令。

版权声明

本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

热门