Code前端首页关于Code前端联系我们

网站SEO优化教程:Robots.txt线路匹配和基础写作

terry 2年前 (2023-09-26) 阅读数 83 #网站优化

1.机器人的基本概念

robots.txt文件是网站上可以被搜索引擎蜘蛛查看的文件。搜索引擎蜘蛛首先在我们的网站上抓取这个文件,并根据网站文件内的内容来确定其访问范围。它可以保护我们的一些文件不被搜索引擎曝光,有效控制蜘蛛的爬行路径,为我们做好SEO创造必要的条件。特别是如果我们的网站刚刚创建,有些内容还不完整,我们不希望被搜索引擎收录。

一些注意事项:

网站必须有robot.txt 文件。

robots.txt文件应放置在网站根目录下

文件名小写。

如果你想完全阻止文件,你需要使用meta的robots属性。

2。 robots.txt的基本语法

内容项的基本格式:键:值对。

1) User-Agent 键

之后的内容对应于每个特定搜索引擎爬虫的名称。例如,百度是Baiduspider,谷歌是Googlebot。

我们一般这样写:

User-Agent:*

表示允许所有搜索引擎蜘蛛爬行。如果您只想爬行特定的搜索引擎蜘蛛,请在末尾提及其名称。如果有多个,就重复写。

注意:User-Agent:后面必须有一个空格。

在robots.txt中,key后面添加:字符,并且后面必须有一个空格,以区别于value。

2) Disallow Key

该键用于指定搜索引擎蜘蛛不应抓取的 URL 路径。

例如:Disallow:/index.php 禁止来自网站的index.php 文件

Allow 键

该键描述允许搜索引擎蜘蛛抓取的URL 路径

例如:Allow: /index .php 启用网站index.php

通配符*

代表任意数量的字符

。例如: Disallow: /*.jpg 禁止网站上的所有 jpg 文件。

终止符 $

表示以前一个字符结尾的 URL。

例如:禁止:/?$ 所有以 ? 结尾的文件网站上禁止的。

3。 Robots.txt 示例分析

示例 1. 不允许所有搜索引擎访问网站的任何部分

用户代理:*

不允许:/

示例 2. 允许所有搜索引擎访问访问网站的任何部分

用户代理:*

禁止:

示例 3. 仅禁止 Baispider 访问您的网站

用户代理:Baiduspider

禁止:/

示例 4. 仅允许 Baiuspider 访问您的网站

用户代理:Baiduspider

禁止:

示例 5. 禁止蜘蛛访问特定目录

用户代理:*

禁止:/cgi-bin/

禁止:/tmp /

不允许:/data/

注意:1)三个目录必须分开写入。 2)注意末尾的斜杠。 3)有斜线和无斜线的区别。 ? htm

Disallow: /a/

注意:允许录音的优先级高于禁止录音。

使用示例7来说明通配符的使用。通配符包括(“$”终止符;

“*”任何字符)

示例 7. 禁止访问网站上的所有动态页面

用户代理:*

不允许:/* ?*

示例 8. 阻止搜索引擎抓取网站上的所有图片

用户代理:*

Disallow:/*.jpg$

Disallow:/*.jpeg$

Disallow:/ * 。 gif$

不允许:/*.png$

不允许:/*.bmp$

还有很多情况需要具体情况具体分析。只要了解了这些语法规则以及通配符的使用,我想很多情况都可以解决。

4。 meta robots标签

meta是网页HTML文件的head标签中的标签内容。它决定了该 HTML 文件和搜索引擎的抓取规则。与 robots.txt 不同,它仅针对以此 html 编写的文件。

写入:

…里面的内容如下。

noindex – 防止页面包含在索引中。

nofollow – 防止页面上的超链接被索引。

noarchive – 不保存此页面的网页快照。

nosnippet – 不在搜索结果中显示此页面的摘要信息或保存此页面的网页快照。

noodp – 不要使用开放目录项目中的描述信息作为搜索结果中的摘要信息。

版权声明

本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

热门