robot.txt写法 | 野人部落实验室

其实robots.txt就是一个记事本文件(txt格式文件),存放在网站根目录下。

那么robots.txt语法到底有哪些呢？

robots.txt语法有三个语法和两个通配符。

三个语法：

1.首先要定义网站被访问的搜索引擎是那些。

User-agent：（定义搜索引擎）
语法：User-agent: * 或搜索引擎的蜘蛛名称

例子：User-agent：Googlebot （定义谷歌，只允许谷歌蜘蛛爬取）
User-agent：Baiduspider （定义百度，只允许百度蜘蛛爬取）
User-agent：*（定义所有搜索引擎）

2：屏蔽搜索引擎爬去语法

Disallow:（禁止语法）用来定义禁止蜘蛛爬取的页面或目录。

写法：DisAllow:/文件夹目录/ （表示禁止蜘蛛爬取网站的其中一个目录）
或 DisAllow:/文件名称（表示禁止蜘蛛爬取网站的其中一个页面）

例如:Disallow:/ (禁止蜘蛛爬取网站的所有目录 “/” 表示根目录下)
Disallow:/admin (禁止蜘蛛爬取admin目录)
Disallow:/abc.html (禁止蜘蛛爬去abc.html页面)
Disallow:/help.html (禁止蜘蛛爬去help.html页面)

整套语法示范:
User-agent: *
Disallow:/目录1/ （禁止所有搜索引擎的蜘蛛爬取站点的目录1）
Disallow:/目录2/ （禁止所有搜索引擎的蜘蛛爬取站点的目录2）

3：允许搜索引擎爬去语法

Allow:（允许语法）用来定义允许蜘蛛爬取的页面或子目录

例如: Disallow:/ (禁止蜘蛛爬取网站的所有目录)
Disallow:/admin (禁止蜘蛛爬取admin目录)
Allow:/admin/abc.html(“/” 表示根目录下，允许蜘蛛爬去admin目录中的abc.html页面）

两个通配符：

匹配符”$”和 “*”
$ 通配符：匹配URL结尾的字符； * 通配符：匹配0个或多个任意字符；

例子1：
允许所有搜索引擎蜘蛛抓取以某个扩展名为后缀的网页地址，代码如下:
User-agent: *
Allow: .htm$ 说明(其中“.htm”，表示充许搜索引擎蜘蛛抓取所有”.htm”为后缀的文件，注意，这里并不包括以”.html”为后缀的文件)

例2：
设定某种类型文件禁止被某个搜索引擎蜘蛛抓取，代码如下:
User-agent: *
Disallow: /*.htm 说明(其中“.htm”，表示禁止搜索引擎蜘蛛抓取所有以”.htm”为后缀的文件，注意，这里并不包括以”.html”为后缀的文件)

发表回复 取消回复

发表回复取消回复