robot.txt 学习

作者：bin

是存放在站点根目录下的一个纯文本文件，用户搜索引擎的爬虫脚本，文件内容描述了你的网站哪些页面可以被抓取，哪些页面不能被抓取。

放在根目录即可，并且可以使用http://www.yourdomain.com/robot.txt 进行访问，查看

User-agent:

描述哪个搜索引擎，有多个搜索引擎即有多个，

例子：

注意：

Disallow:

描述哪些”子链接”你不希望被爬取

例：

注意：

1、禁止搜索引擎抓取目录：/admin、 /login和 readme.html文件

User-agent: *

Disallow: /admin

Disallow: /login

Disallow: /readme.html

2、只允许”百度搜索”引擎抓取admin，其他引擎都屏蔽

User-agent: *

Disallow: /admin/

User-agent: Baiduspider

Disallow:

3、禁止所有引擎抓取

User-agent: *

Disallow: /

4、禁止”百度搜索”引擎抓取

User-agent: Baiduspider

Disallow: /