robot.txt 学习
作者:bin1、什么是robot.txt?
是存放在站点根目录下的一个纯文本文件,用户搜索引擎的爬虫脚本,文件内容描述了你的网站哪些页面可以被抓取,哪些页面不能被抓取。
2、使用方法
放在根目录即可,并且可以使用http://www.yourdomain.com/robot.txt 进行访问,查看
3、格式
User-agent:
描述哪个搜索引擎,有多个搜索引擎即有多个,
例子:
- 1、User-agent: Baiduspider
- 2、User-agent: Googlebot
注意:
- 1、至少要有一个条User-agent
- 2、User-agent : *只能有一条
- 3、如果设置 User-agent : * 那对所有的搜索引擎都有效
Disallow:
描述哪些”子链接”你不希望被爬取
例:
- 1、”Disallow:/admin”是指/admin.html 和/admin/login.html都不允许搜索引擎蜘蛛抓取;
- 2、”Disallow:/admin/”是指允许搜索引擎蜘蛛抓取/admin.html,而不能抓取/admin/login.html;
注意:
- 1、Disallow 为空说明网站所有页面都可以抓取;
- 2、robot文件中至少有一条Disallow, 即便是Disallow ;
- 3、如果robot.txt文件是一个空文件,说明所有页面都可以抓取;
- 4、被禁止的目录必须以 \ 开头
综合实例:
1、禁止搜索引擎抓取目录:/admin、 /login和 readme.html文件
User-agent: * Disallow: /admin Disallow: /login Disallow: /readme.html
2、只允许”百度搜索”引擎抓取admin,其他引擎都屏蔽
User-agent: * Disallow: /admin/ User-agent: Baiduspider Disallow:
3、禁止所有引擎抓取
User-agent: * Disallow: /
4、禁止”百度搜索”引擎抓取
User-agent: Baiduspider Disallow: /