robots.txt无法阻止网页被抓取收录的原因分析

terry 2年前 (2023-09-26) 阅读数 49 #网站优化

为了阻止某些网页被搜索引擎抓取收录，大家第一个想到的方法应该就是使用robots.txt 。是的，几乎每个网站都有一个 robots.txt 文件，用于防止某些目录被搜索引擎抓取和包含并在搜索结果中建立索引。但是，如果您想阻止搜索引擎抓取某些页面，仅使用 robots.txt 文件是不够的。

robots.txt

请不要使用robots.txt作为隐藏网页的方法

robots.txt文件位于您网站的根目录下，用于表明您不希望搜索引擎爬虫访问您网站的哪些内容。此文件使用机器人排除标准，该协议包含一小组命令，可用于定位网站的不同部分以及显示可访问网站内容的特定类型的网络爬虫（例如移动或桌面爬虫）。

◆非图像文件

对于非图像文件（即网页），您应该只使用robots.txt来驱动抓取流量，因为通常您不希望搜索引擎抓取工具导致您的服务器超载或您的抓取预算被浪费在您的网站上抓取不相关或类似的页面。如果您不希望自己的网页出现在搜索引擎结果中，请不要使用 robots.txt 隐藏您的网页。这是因为其他网页可能会指向您的页面，从而导致您的页面被索引并且 robots.txt 变得无效。如果您想阻止您的页面出现搜索结果，请使用其他方法，例如密码保护或 noindex 标签或指令。

◆图像文件

robots.txt 可防止图像文件出现在搜索引擎结果中（尽管它不会阻止其他网页或用户链接到您的图像）。 †。但是，如果这些资源的缺失使爬虫分析页面变得更加困难，我们建议您不要屏蔽这些资源，否则搜索引擎将无法正确分析依赖这些资源的页面。

了解robots.txt的局限性

在创建robots.txt文件之前，您应该了解这种URL拦截方法的潜在风险。有时您可以考虑其他机制来确保搜索引擎无法在网络上找到您的 URL。命令

◆Robots.txt 只是一条指令。

robots.txt 文件中的命令不会强制爬虫在您的网站上执行特定操作；对于访问您网站的爬虫来说，这些命令只是说明。普通网络爬虫会遵循 robots.txt 文件中的说明，但其他爬虫可能不会。因此，如果您想确保网络爬虫不会捕获您网站的某些信息，建议使用其他拦截方法（例如对服务器私有文件进行密码保护）。

◆ 不同的爬虫对语法的解释不同

虽然常见的网络爬虫遵循 robots.txt 指令，但这些爬虫可能会使用不同的方式来解析这些指令。您应该仔细检查不同网络爬虫的正确语法，因为某些爬虫可能无法理解某些命令。

◆ 如果其他网站有被 robots.txt 屏蔽的页面的链接，该页面仍可能被编入索引

虽然 robots.txt 屏蔽的内容不会被搜索引擎抓取或索引，但如果有链接对于网络上其他地方被阻止的 URL，搜索引擎仍然可以找到该 URL 并为其建立索引。因此，URL 和其他公开可见的信息（例如相关页面上链接的锚文本）可能仍会出现在搜索结果中。为了防止 URL 在搜索结果中正确显示，请使用密码保护服务器上的文件或使用 noindex 元标记或响应标头（或完全删除有问题的页面）。