网站SEO优化教程:Robots.txt线路匹配和基础写作
1.机器人的基本概念
robots.txt文件是网站上可以被搜索引擎蜘蛛查看的文件。搜索引擎蜘蛛首先在我们的网站上抓取这个文件,并根据网站文件内的内容来确定其访问范围。它可以保护我们的一些文件不被搜索引擎曝光,有效控制蜘蛛的爬行路径,为我们做好SEO创造必要的条件。特别是如果我们的网站刚刚创建,有些内容还不完整,我们不希望被搜索引擎收录。
一些注意事项:
网站必须有robot.txt 文件。
robots.txt文件应放置在网站根目录下
文件名小写。
如果你想完全阻止文件,你需要使用meta的robots属性。
2。 robots.txt的基本语法
内容项的基本格式:键:值对。
1) User-Agent 键
之后的内容对应于每个特定搜索引擎爬虫的名称。例如,百度是Baiduspider,谷歌是Googlebot。
我们一般这样写:
User-Agent:*
表示允许所有搜索引擎蜘蛛爬行。如果您只想爬行特定的搜索引擎蜘蛛,请在末尾提及其名称。如果有多个,就重复写。
注意:User-Agent:后面必须有一个空格。
在robots.txt中,key后面添加:字符,并且后面必须有一个空格,以区别于value。
2) Disallow Key
该键用于指定搜索引擎蜘蛛不应抓取的 URL 路径。
例如:Disallow:/index.php 禁止来自网站的index.php 文件
Allow 键
该键描述允许搜索引擎蜘蛛抓取的URL 路径
例如:Allow: /index .php 启用网站index.php
通配符*
代表任意数量的字符
。例如: Disallow: /*.jpg 禁止网站上的所有 jpg 文件。
终止符 $
表示以前一个字符结尾的 URL。
例如:禁止:/?$ 所有以 ? 结尾的文件网站上禁止的。
3。 Robots.txt 示例分析
示例 1. 不允许所有搜索引擎访问网站的任何部分
用户代理:*
不允许:/
示例 2. 允许所有搜索引擎访问访问网站的任何部分
用户代理:*
禁止:
示例 3. 仅禁止 Baispider 访问您的网站
用户代理:Baiduspider
禁止:/
示例 4. 仅允许 Baiuspider 访问您的网站
用户代理:Baiduspider
禁止:
示例 5. 禁止蜘蛛访问特定目录
用户代理:*
禁止:/cgi-bin/
禁止:/tmp /
不允许:/data/
注意:1)三个目录必须分开写入。 2)注意末尾的斜杠。 3)有斜线和无斜线的区别。 ? htm
Disallow: /a/
注意:允许录音的优先级高于禁止录音。
使用示例7来说明通配符的使用。通配符包括(“$”终止符;
“*”任何字符)
示例 7. 禁止访问网站上的所有动态页面
用户代理:*
不允许:/* ?*
示例 8. 阻止搜索引擎抓取网站上的所有图片
用户代理:*
Disallow:/*.jpg$
Disallow:/*.jpeg$
Disallow:/ * 。 gif$
不允许:/*.png$
不允许:/*.bmp$
还有很多情况需要具体情况具体分析。只要了解了这些语法规则以及通配符的使用,我想很多情况都可以解决。
4。 meta robots标签
meta是网页HTML文件的head标签中的标签内容。它决定了该 HTML 文件和搜索引擎的抓取规则。与 robots.txt 不同,它仅针对以此 html 编写的文件。
写入:
。
…里面的内容如下。
noindex – 防止页面包含在索引中。
nofollow – 防止页面上的超链接被索引。
noarchive – 不保存此页面的网页快照。
nosnippet – 不在搜索结果中显示此页面的摘要信息或保存此页面的网页快照。
noodp – 不要使用开放目录项目中的描述信息作为搜索结果中的摘要信息。
版权声明
本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。