一、什么是 Robots.txt?
robots.txt 是网站根目录下的纯文本协议,核心作用是告诉搜索引擎爬虫:哪些页面可以爬、哪些页面禁止爬。
它不是强制命令(恶意爬虫会无视),但对百度、谷歌、必应等正规搜索引擎完全生效,是网站SEO、隐私防护、服务器减负的必备文件。
二、核心语法(记住这4个就够了)
所有代码都基于这4个基础指令,无复杂格式,纯文本即可:
- User-agent:指定针对的爬虫(* 代表所有爬虫)
- Disallow:禁止爬虫访问的路径
- Allow:允许爬虫访问的路径(仅用于细化禁止规则)
- Sitemap:告知爬虫网站地图地址(可选,推荐添加)
三、通用规范(必看!避免写错失效)
- 文件必须命名为 robots.txt(全小写,无后缀)
- 必须放在网站根目录(如 https://你的域名/robots.txt)
- 路径写法:直接写相对路径,不用加域名(如 /admin,不是 https://xxx/admin)
- 一个文件只写一套规则,空行不影响生效
四、实战代码模板(直接复制修改)
模板1:允许所有爬虫爬取全站(最常用,新站/普通站推荐)
适用场景:官网、博客、电商站,希望搜索引擎收录所有页面
# 允许所有搜索引擎爬虫爬取整个网站 User-agent: * Allow: / # 提交网站地图(替换成你的sitemap地址) Sitemap: https://www.your-domain.com/sitemap.xml
模板2:禁止所有爬虫爬取全站(私密站/测试站)
适用场景:内部系统、未上线测试站、私密网站
# 禁止所有爬虫访问任何页面 User-agent: * Disallow: /
模板3:禁止爬敏感目录,允许爬全站(企业站必备)
适用场景:禁止爬后台、隐私文件、缓存文件夹,允许爬首页、文章、产品页
# 针对所有搜索引擎爬虫 User-agent: * # 允许爬取根目录(全站) Allow: / # 禁止爬取后台管理页面 Disallow: /admin/ # 禁止爬取用户隐私页面 Disallow: /user/ # 禁止爬取支付/订单相关页面 Disallow: /order/ # 禁止爬取网站缓存文件 Disallow: /cache/ # 禁止爬取临时文件 Disallow: /temp/ # 禁止爬取后台登录接口 Disallow: /login.php # 提交网站地图 Sitemap: https://www.your-domain.com/sitemap.xml
模板4:精细化规则(禁止某个目录,但允许目录内单个页面)
适用场景:禁止爬整个会员中心,但允许爬会员注册页
User-agent: * # 禁止爬取整个会员目录 Disallow: /member/ # 允许爬取会员注册页(细化规则,优先级高于Disallow) Allow: /member/register.html # 网站地图 Sitemap: https://www.your-domain.com/sitemap.xml
模板5:针对单一爬虫定制规则(屏蔽百度/谷歌单独设置)
适用场景:不想被百度爬取,但允许谷歌收录
# 禁止百度爬虫(User-agent: Baiduspider 是百度官方爬虫标识) User-agent: Baiduspider Disallow: / # 允许谷歌爬虫爬取全站 User-agent: Googlebot Allow: / # 网站地图 Sitemap: https://www.your-domain.com/sitemap.xml
五、常见错误代码(千万别这么写)
错误1:路径写错(加了域名,无效)
# 错误写法 Disallow: https://www.your-domain.com/admin/ # 正确写法 Disallow: /admin/
错误2:漏写斜杠(目录识别失败)
# 错误写法(只会禁止/admin字符串,不会禁止目录) Disallow: /admin # 正确写法(禁止整个/admin/目录) Disallow: /admin/
错误3:语法错误(用了中文符号、多余空格)
# 错误写法(中文冒号、多余空格) User-agent: * Disallow: /admin/ # 正确写法(英文符号、标准格式) User-agent: * Disallow: /admin/
六、如何验证你的Robots.txt生效?
- 上传文件到网站根目录
- 浏览器访问:https://你的域名/robots.txt,能看到你写的代码即生效
- 用官方工具验证:
- 谷歌搜索控制台:https://search.google.com/search-console
- 百度搜索资源平台:https://ziyuan.baidu.com
总结
1. robots.txt 是纯文本文件,放根目录,全小写命名
2. 核心:User-agent:*(所有爬虫)+ Allow/Disallow(允许/禁止)
3. 新手直接复制模板1/3,修改路径即可使用
4. 规则写错会导致网站不收录或隐私泄露,务必按标准语法写
