如何使用 Chrome 以 Googlebot 身份查看网站

terry 11个月前 (01-09) 阅读数 539 #SEO

文章标签 SEO

难以确保 Googlebot 正确抓取和索引您的网站？对于技术 SEO，渲染问题（尤其是在 JavaScript 密集的网站上）可能会导致排名失败和内容被隐藏。

这就是使用 Chrome（或 Chrome Canary）模拟 Googlebot 的地方。此方法可以揭示用户和搜索引擎所看到的内容之间的差异，确保您的网站按预期运行。

无论是否欺骗Googlebot，使用特定的测试浏览器，技术审核都会更加高效和准确。

在本指南中，我将向您展示如何设置 Googlebot 浏览器、解决渲染问题以及改进您的 SEO 审核。

为什么我应该以 Googlebot 的身份查看网站？

过去，技术性 SEO 审核比较简单，网站仅依赖 HTML 和 CSS，JavaScript 仅限于动画等小幅增强。如今，整个网站都是用 JavaScript 构建的，将工作量从服务器转移到浏览器。这意味着搜索机器人（包括 Googlebot）必须在客户端呈现页面——这个过程耗费大量资源，而且容易出现延迟。

搜索机器人经常难以处理 JavaScript。例如，Googlebot 首先处理原始 HTML，并且可能要几天或几周后才能完全呈现 JavaScript 内容，具体取决于网站。一些网站使用动态呈现来绕过这些挑战，为机器人提供服务器端版本，为用户提供客户端版本。

简短吐槽

通常，这种设置会使网站过于复杂，并且比服务器端呈现或传统 HTML 网站产生更多的技术 SEO 问题。值得庆幸的是，动态呈现网站的使用正在减少。

虽然也有例外，但我认为客户端呈现的网站不是一个好主意。网站应该设计为在设备的最低通用标准下工作，并使用渐进式增强（通过 JavaScript）来改善使用可以处理额外功能的设备的用户的体验。

我的轶事证据表明，对于依赖屏幕阅读器等辅助功能解决方案的用户来说，客户端呈现的网站通常更难访问。各种研究都支持这一观点，尽管我看到的研究都是由投资于辅助功能的公司和慈善机构进行的（我认为，为了所有人的利益，任何偏见都是合理的）。然而，有些情况下技术 SEO 和可用性是交叉的。

好消息

以 Googlebot 的身份查看网站可让您检测机器人和用户所见内容之间的差异。虽然这些视图不必完全相同，但关键元素（如导航和内容）必须一致。这种方法有助于识别由渲染限制和其他搜索机器人特有的怪癖导致的索引和排名问题。

我们能看到 Googlebot 所看到的内容吗？

不，不完全是。

Googlebot 使用无头版 Chrome 浏览器呈现网页，但即使使用本文中的技术，也不可能完美复制其行为。例如，Googlebot 对 JavaScript 的处理可能无法预测。

2024 年 9 月的一个显著错误导致 Google 无法检测许多基于 React 的网站在客户端渲染代码中的元 noindex 标签。此类问题凸显了模拟 Googlebot 的局限性，尤其是对于标签和主要内容等重要的 SEO 元素而言。

然而，我们的目标是尽可能地模仿 Googlebot 的移动优先索引。为此，我使用了以下工具组合：

用于直接模拟的 Googlebot 浏览器。
Screaming Frog SEO Spider模仿并渲染为 Googlebot。
Google 的工具，例如 Search Console 中的 URL Inspection 工具和用于屏幕截图和代码分析的Rich Results Test。

值得注意的是，Google 的工具（尤其是在 2023 年改用“Google-InspectionTool”用户代理之后）并不能完全准确地表示 Googlebot 所看到的内容。但是，当与 Googlebot 浏览器和 SEO Spider 一起使用时，它们对于识别潜在问题和进行故障排除非常有用。

为什么要使用单独的浏览器以 Googlebot 身份查看网站？

使用专用的 Googlebot 浏览器可简化技术 SEO 审核并提高结果的准确性。原因如下：

1. 便利性

专用浏览器可让您快速模拟 Googlebot，而无需依赖多种工具，从而节省时间和精力。在标准浏览器扩展程序中切换用户代理可能效率低下，尤其是在审核服务器响应不一致或动态内容的网站时。

此外，某些特定于 Googlebot 的 Chrome 设置不会在各个标签页或会话之间保留，并且特定设置（例如，禁用 JavaScript）可能会干扰您正在处理的其他标签页。您可以使用单独的浏览器来绕过这些挑战并简化审核流程。

2. 提高准确性

浏览器扩展程序可能会无意中改变网站的外观或行为。专用的 Googlebot 浏览器可最大限度地减少扩展程序的数量，减少干扰并确保更准确地模拟 Googlebot 的体验。

3. 避免错误

在标准浏览器中，很容易忘记关闭 Googlebot 欺骗功能，这可能会导致网站出现故障或阻止您的访问。我甚至因为欺骗 Googlebot 而被网站屏蔽，我不得不向他们发送电子邮件并附上我的 IP 以解除屏蔽。

4. 挑战面前仍保持灵活性

多年来，我的 Googlebot 浏览器一直运行顺畅。然而，随着 Cloudflare 的兴起及其对电子商务网站的更严格的安全协议，我经常不得不要求客户将特定 IP 添加到允许列表中，以便我在欺骗 Googlebot 的同时测试他们的网站。

当无法使用白名单时，我会改用 Bingbot 或 DuckDuckBot 用户代理等替代方案。与模仿 Googlebot 相比，这种解决方案不太可靠，但仍能发现有价值的见解。另一种后备方法是检查 Google Search Console中呈现的 HTML ，尽管它与 Google 的抓取工具的用户代理不同，但仍然是一种模拟 Googlebot 行为的可靠方法。

如果我要审核一个阻止非 Google Googlebot 的网站，并允许我的 IP，Googlebot 浏览器仍然是我的首选工具。它不仅仅是一个用户代理切换器，而且还提供了最全面的方式来了解 Googlebot 所看到的内容。

哪些 SEO 审核对 Googlebot 浏览器有用？

Googlebot 浏览器最常见的用例是审核依赖客户端或动态渲染的网站。这是一种直接比较 Googlebot 看到的内容与一般访问者看到的内容的方法，突出显示可能影响您网站在搜索结果中的表现的差异。

鉴于我建议将浏览器扩展的数量限制为必要的几个，因此与加载扩展的浏览器相比，它可以更准确地测试 Chrome 用户实际的网站体验，尤其是在使用 Chrome 内置的 DevTools 和 Lighthouse 进行速度审核时。

即使对于不使用动态渲染的网站，您也永远不知道通过欺骗 Googlebot 会发现什么。在审核电子商务网站超过八年的时间里，我仍然对自己遇到的独特问题感到惊讶。

在 Googlebot 审核期间您应该调查什么？

导航差异：主导航在用户和机器人视图之间是否一致？
内容可见性： Googlebot 是否能够看到您想要索引的内容？
JavaScript 索引延迟：如果网站依赖于 JavaScript 渲染，新内容是否会被快速索引（例如，对于事件或产品发布）？
服务器响应问题： URL 是否返回正确的服务器响应？例如，错误的 URL 可能会向 Googlebot 显示 200 OK，但向访问者显示 404 Not Found。
页面布局变化：我经常看到在欺骗 Googlebot 时，链接会显示为黑色背景上的蓝色文本。这是机器可读的，但远非用户友好。如果 Googlebot 无法正确呈现您的网站，它将不知道要优先考虑什么。
基于地理位置的重定向：许多网站根据位置进行重定向。由于 Googlebot 主要从美国 IP 抓取，因此验证您的网站如何处理此类请求非常重要。
审核的详细程度取决于审核内容，但 Chrome 提供了许多用于技术 SEO 审核的内置工具。例如，我经常比较控制台和网络标签数据，以识别一般访问者视图和 Googlebot 之间的差异。此过程会捕获 Googlebot 阻止的文件或可能被忽略的缺失内容。