SEO 教程:机器人和站点地图的角色
Robots.txt 文件指定搜索引擎爬网程序允许/禁止爬网请求的网站上的哪些网页或文件。站点地图是一种文件,提供有关网站上的网页、视频或其他文件的信息,并说明这些内容之间的关系。搜索引擎读取此文件以更智能地抓取网站。
robots.txt
这个文件主要是用来防止网站收到过多的请求(过多的搜索引擎抓取非常消耗资源);它不是阻止搜索引擎访问特定网站的有效方法。方法。如果你想阻止搜索引擎访问某个页面,你应该使用 noindex 指令,或者使用密码保护。
有关 robots.txt 的了解要点
并非所有搜索引擎都支持 robots.txt 指令
robots.txt 文件中的命令不会强制网站爬虫的行为;是否遵循这些命令。这是由爬虫自行决定的。常见的网络爬虫会遵循robots.txt文件中的命令,但某些爬虫可能不会这样做。因此,如果您想确保某些信息不被网络爬虫捕获,我们建议您使用其他阻止方法,例如在您的服务器上使用密码保护的私人文件。
不同的爬虫会以不同的方式解析语法。
虽然常规网络爬虫将遵循 robots.txt 文件中的说明,但每个爬虫可能会以不同的方式解析这些说明。您应该熟悉不同网络爬虫的正确语法,因为某些爬虫可能无法理解某些命令
如果其他网站上有链接指向被robots.txt文件阻止的页面。那么该页面可能仍会被索引
虽然搜索引擎不会抓取或索引被 robots.txt 阻止的内容,但如果网络上其他地方存在指向被阻止 URL 的链接,我们仍然可以找到该 URL 并为其建立索引。因此,URL 和其他公开显示的信息(例如相关页面链接中的锚文本)可能仍会出现在搜索引擎结果中。为了防止您的 URL 出现在搜索引擎结果中,您应该对服务器上的文件进行密码保护,或使用 noindex 元标记或响应标头(或完全删除页面)。
站点地图
站点地图会告诉搜索引擎网站上哪些网页和文件比较重要,同时也会提供与这些文件相关的重要信息:以网页为例,这些信息包括最后更新时间网页的内容、更改频率以及该页面是否提供其他语言版本。
以下情况建议使用区域地图:
场地面积较大。在这种情况下,搜索引擎在抓取新的或最近更新的页面时更有可能错过它们。
网站存档有大量内容页面,这些内容页面彼此不相关或缺乏有效链接。如果您的网页不会自然地相互引用,您可以通过在站点地图中列出它们来确保搜索引擎不会错过任何网页。
网站是新的,外部链接不多。网络抓取工具通过跟踪网页之间的链接来抓取网页。因此,如果没有其他网站链接到您的页面,搜索引擎可能无法发现您的页面。
网站包含大量富媒体内容(视频、图片)。如果提供了站点地图,搜索引擎可能会在适用的情况下在其搜索中包含站点地图中的其他信息。
创建站点地图
一般常见搜索引擎支持多种格式的站点地图。无论使用何种格式,单个站点地图的文件大小不得超过 50 MB(未压缩),并且其中的 URL 数量不得超过 50 MB(未压缩)。不得超过50,000,否则必须将区域地图分割成多个更小的区域地图。
XML 格式
示例:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://www.example.com/1.html</loc>
<lastmod>2021-02-23</lastmod>
</url>
</urlset>
XML 格式站点地图,您可以查看:https://www.sitemaps.org/protocol.html 了解更多信息。
RSS 或 Atom 源
如果您的博客有 RSS 或 Atom 源,您可以将源的 URL 作为站点地图提交。大多数博客软件都能够为您创建提要,但请注意,该提要仅提供有关最近帖子/更新的信息。
文本
如果您的站点地图仅包含网页 URL,您可以向搜索引擎提供一个简单的文本文件(UTF-8 编码,每行仅包含一个 URL)。例如:
https://www.example.com/page1.html
https://www.example.com/page2.html
提交站点地图
可以通过robots.txt中的Sitemap命令提交,也可以通过搜索引擎提供的站长工具提交。例如在robots.txt文件末尾添加:
站点地图:http://www.example.com/sitemap.xml
或者以百度为例(下图):首先登录进入百度搜索资源平台,然后在总集>资源提交>站点地图中提交相应的xml文件。 百度提交站点地图
注意:百度仅支持小于10M的txt或xml文件。如果数据较多,则必须对文件进行分割。一次可以提交10个文件。
版权声明
本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。