首页 > linux > robot.txt 学习

robot.txt 学习

作者:bin

1、什么是robot.txt?

是存放在站点根目录下的一个纯文本文件,用户搜索引擎的爬虫脚本,文件内容描述了你的网站哪些页面可以被抓取,哪些页面不能被抓取。

2、使用方法

放在根目录即可,并且可以使用http://www.yourdomain.com/robot.txt 进行访问,查看

3、格式

User-agent:

描述哪个搜索引擎,有多个搜索引擎即有多个,

例子:

  1. 1、User-agent: Baiduspider
  2. 2、User-agent: Googlebot

注意:

  1. 1、至少要有一个条User-agent
  2. 2、User-agent : *只能有一条
  3. 3、如果设置 User-agent : * 那对所有的搜索引擎都有效

Disallow:

描述哪些”子链接”你不希望被爬取

例:

  1. 1、”Disallow:/admin”是指/admin.html 和/admin/login.html都不允许搜索引擎蜘蛛抓取;
  2. 2、”Disallow:/admin/”是指允许搜索引擎蜘蛛抓取/admin.html,而不能抓取/admin/login.html;

注意:

  1. 1、Disallow 为空说明网站所有页面都可以抓取;
  2. 2、robot文件中至少有一条Disallow, 即便是Disallow ;
  3. 3、如果robot.txt文件是一个空文件,说明所有页面都可以抓取;
  4. 4、被禁止的目录必须以 \ 开头

 

综合实例:

1、禁止搜索引擎抓取目录:/admin、 /login和 readme.html文件

User-agent: *

Disallow: /admin

Disallow: /login

Disallow: /readme.html

2、只允许”百度搜索”引擎抓取admin,其他引擎都屏蔽

User-agent: *

Disallow: /admin/

User-agent: Baiduspider

Disallow:

3、禁止所有引擎抓取

User-agent: *

Disallow: /

4、禁止”百度搜索”引擎抓取

User-agent: Baiduspider

Disallow: /

 

 

您必须 [ 登录 ] 才能发表留言!