Robots.txt 设置教程：从零基础到实战代码

一、什么是 Robots.txt？

robots.txt 是网站根目录下的纯文本协议，核心作用是告诉搜索引擎爬虫：哪些页面可以爬、哪些页面禁止爬。

它不是强制命令（恶意爬虫会无视），但对百度、谷歌、必应等正规搜索引擎完全生效，是网站SEO、隐私防护、服务器减负的必备文件。

二、核心语法（记住这4个就够了）

所有代码都基于这4个基础指令，无复杂格式，纯文本即可：

User-agent：指定针对的爬虫（* 代表所有爬虫）
Disallow：禁止爬虫访问的路径
Allow：允许爬虫访问的路径（仅用于细化禁止规则）
Sitemap：告知爬虫网站地图地址（可选，推荐添加）

三、通用规范（必看！避免写错失效）

文件必须命名为 robots.txt（全小写，无后缀）
必须放在网站根目录（如 https://你的域名/robots.txt）
路径写法：直接写相对路径，不用加域名（如 /admin，不是 https://xxx/admin）
一个文件只写一套规则，空行不影响生效

四、实战代码模板（直接复制修改）

模板1：允许所有爬虫爬取全站（最常用，新站/普通站推荐）

适用场景：官网、博客、电商站，希望搜索引擎收录所有页面

# 允许所有搜索引擎爬虫爬取整个网站
User-agent: *
Allow: /

# 提交网站地图（替换成你的sitemap地址）
Sitemap: https://www.your-domain.com/sitemap.xml

模板2：禁止所有爬虫爬取全站（私密站/测试站）

适用场景：内部系统、未上线测试站、私密网站

# 禁止所有爬虫访问任何页面
User-agent: *
Disallow: /

模板3：禁止爬敏感目录，允许爬全站（企业站必备）

适用场景：禁止爬后台、隐私文件、缓存文件夹，允许爬首页、文章、产品页

# 针对所有搜索引擎爬虫
User-agent: *

# 允许爬取根目录（全站）
Allow: /

# 禁止爬取后台管理页面
Disallow: /admin/
# 禁止爬取用户隐私页面
Disallow: /user/
# 禁止爬取支付/订单相关页面
Disallow: /order/
# 禁止爬取网站缓存文件
Disallow: /cache/
# 禁止爬取临时文件
Disallow: /temp/
# 禁止爬取后台登录接口
Disallow: /login.php

# 提交网站地图
Sitemap: https://www.your-domain.com/sitemap.xml

模板4：精细化规则（禁止某个目录，但允许目录内单个页面）

适用场景：禁止爬整个会员中心，但允许爬会员注册页

User-agent: *
# 禁止爬取整个会员目录
Disallow: /member/
# 允许爬取会员注册页（细化规则，优先级高于Disallow）
Allow: /member/register.html

# 网站地图
Sitemap: https://www.your-domain.com/sitemap.xml

模板5：针对单一爬虫定制规则（屏蔽百度/谷歌单独设置）

适用场景：不想被百度爬取，但允许谷歌收录

# 禁止百度爬虫（User-agent: Baiduspider 是百度官方爬虫标识）
User-agent: Baiduspider
Disallow: /

# 允许谷歌爬虫爬取全站
User-agent: Googlebot
Allow: /

# 网站地图
Sitemap: https://www.your-domain.com/sitemap.xml

五、常见错误代码（千万别这么写）

错误1：路径写错（加了域名，无效）

# 错误写法
Disallow: https://www.your-domain.com/admin/

# 正确写法
Disallow: /admin/

错误2：漏写斜杠（目录识别失败）

# 错误写法（只会禁止/admin字符串，不会禁止目录）
Disallow: /admin

# 正确写法（禁止整个/admin/目录）
Disallow: /admin/

错误3：语法错误（用了中文符号、多余空格）

# 错误写法（中文冒号、多余空格）
User-agent： * 
Disallow： /admin/ 

# 正确写法（英文符号、标准格式）
User-agent: *
Disallow: /admin/

六、如何验证你的Robots.txt生效？

上传文件到网站根目录
浏览器访问：https://你的域名/robots.txt，能看到你写的代码即生效
用官方工具验证：
- 谷歌搜索控制台：https://search.google.com/search-console
- 百度搜索资源平台：https://ziyuan.baidu.com

总结

1. robots.txt 是纯文本文件，放根目录，全小写命名

2. 核心：User-agent:*（所有爬虫）+ Allow/Disallow（允许/禁止）

3. 新手直接复制模板1/3，修改路径即可使用

4. 规则写错会导致网站不收录或隐私泄露，务必按标准语法写

Robots.txt 设置教程：从零基础到实战代码

一、什么是 Robots.txt？

二、核心语法（记住这4个就够了）

三、通用规范（必看！避免写错失效）

四、实战代码模板（直接复制修改）

模板1：允许所有爬虫爬取全站（最常用，新站/普通站推荐）

模板2：禁止所有爬虫爬取全站（私密站/测试站）

模板3：禁止爬敏感目录，允许爬全站（企业站必备）

模板4：精细化规则（禁止某个目录，但允许目录内单个页面）

模板5：针对单一爬虫定制规则（屏蔽百度/谷歌单独设置）

五、常见错误代码（千万别这么写）

错误1：路径写错（加了域名，无效）

错误2：漏写斜杠（目录识别失败）

错误3：语法错误（用了中文符号、多余空格）

六、如何验证你的Robots.txt生效？

总结

相关文章

模板巴巴

一、什么是 Robots.txt？

二、核心语法（记住这4个就够了）

三、通用规范（必看！避免写错失效）

四、实战代码模板（直接复制修改）

模板1：允许所有爬虫爬取全站（最常用，新站/普通站推荐）

模板2：禁止所有爬虫爬取全站（私密站/测试站）

模板3：禁止爬敏感目录，允许爬全站（企业站必备）

模板4：精细化规则（禁止某个目录，但允许目录内单个页面）

模板5：针对单一爬虫定制规则（屏蔽百度/谷歌单独设置）

五、常见错误代码（千万别这么写）

错误1：路径写错（加了域名，无效）

错误2：漏写斜杠（目录识别失败）

错误3：语法错误（用了中文符号、多余空格）

六、如何验证你的Robots.txt生效？

总结

相关文章

微信

模板巴巴

QQ交流群