Robots.txt 设置教程:从零基础到实战代码

2026-03-28 0 3,067

一、什么是 Robots.txt?

robots.txt 是网站根目录下的纯文本协议,核心作用是告诉搜索引擎爬虫:哪些页面可以爬、哪些页面禁止爬。

它不是强制命令(恶意爬虫会无视),但对百度、谷歌、必应等正规搜索引擎完全生效,是网站SEO、隐私防护、服务器减负的必备文件。

二、核心语法(记住这4个就够了)

所有代码都基于这4个基础指令,无复杂格式,纯文本即可:

  • User-agent:指定针对的爬虫(* 代表所有爬虫)
  • Disallow:禁止爬虫访问的路径
  • Allow:允许爬虫访问的路径(仅用于细化禁止规则)
  • Sitemap:告知爬虫网站地图地址(可选,推荐添加)

三、通用规范(必看!避免写错失效)

  • 文件必须命名为 robots.txt(全小写,无后缀)
  • 必须放在网站根目录(如 https://你的域名/robots.txt)
  • 路径写法:直接写相对路径,不用加域名(如 /admin,不是 https://xxx/admin)
  • 一个文件只写一套规则,空行不影响生效

四、实战代码模板(直接复制修改)

模板1:允许所有爬虫爬取全站(最常用,新站/普通站推荐)

适用场景:官网、博客、电商站,希望搜索引擎收录所有页面

# 允许所有搜索引擎爬虫爬取整个网站
User-agent: *
Allow: /

# 提交网站地图(替换成你的sitemap地址)
Sitemap: https://www.your-domain.com/sitemap.xml

模板2:禁止所有爬虫爬取全站(私密站/测试站)

适用场景:内部系统、未上线测试站、私密网站

# 禁止所有爬虫访问任何页面
User-agent: *
Disallow: /

模板3:禁止爬敏感目录,允许爬全站(企业站必备)

适用场景:禁止爬后台、隐私文件、缓存文件夹,允许爬首页、文章、产品页

# 针对所有搜索引擎爬虫
User-agent: *

# 允许爬取根目录(全站)
Allow: /

# 禁止爬取后台管理页面
Disallow: /admin/
# 禁止爬取用户隐私页面
Disallow: /user/
# 禁止爬取支付/订单相关页面
Disallow: /order/
# 禁止爬取网站缓存文件
Disallow: /cache/
# 禁止爬取临时文件
Disallow: /temp/
# 禁止爬取后台登录接口
Disallow: /login.php

# 提交网站地图
Sitemap: https://www.your-domain.com/sitemap.xml

模板4:精细化规则(禁止某个目录,但允许目录内单个页面)

适用场景:禁止爬整个会员中心,但允许爬会员注册页

User-agent: *
# 禁止爬取整个会员目录
Disallow: /member/
# 允许爬取会员注册页(细化规则,优先级高于Disallow)
Allow: /member/register.html

# 网站地图
Sitemap: https://www.your-domain.com/sitemap.xml

模板5:针对单一爬虫定制规则(屏蔽百度/谷歌单独设置)

适用场景:不想被百度爬取,但允许谷歌收录

# 禁止百度爬虫(User-agent: Baiduspider 是百度官方爬虫标识)
User-agent: Baiduspider
Disallow: /

# 允许谷歌爬虫爬取全站
User-agent: Googlebot
Allow: /

# 网站地图
Sitemap: https://www.your-domain.com/sitemap.xml

五、常见错误代码(千万别这么写)

错误1:路径写错(加了域名,无效)

# 错误写法
Disallow: https://www.your-domain.com/admin/

# 正确写法
Disallow: /admin/

错误2:漏写斜杠(目录识别失败)

# 错误写法(只会禁止/admin字符串,不会禁止目录)
Disallow: /admin

# 正确写法(禁止整个/admin/目录)
Disallow: /admin/

错误3:语法错误(用了中文符号、多余空格)

# 错误写法(中文冒号、多余空格)
User-agent: * 
Disallow: /admin/ 

# 正确写法(英文符号、标准格式)
User-agent: *
Disallow: /admin/

六、如何验证你的Robots.txt生效?

  1. 上传文件到网站根目录
  2. 浏览器访问:https://你的域名/robots.txt,能看到你写的代码即生效
  3. 用官方工具验证:

总结

1. robots.txt 是纯文本文件,放根目录,全小写命名

2. 核心:User-agent:*(所有爬虫)+ Allow/Disallow(允许/禁止)

3. 新手直接复制模板1/3,修改路径即可使用

4. 规则写错会导致网站不收录或隐私泄露,务必按标准语法写

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

模板巴巴 SEO推广 Robots.txt 设置教程:从零基础到实战代码 https://www.mubanbaba.com/76.html

上一篇:

已经没有上一篇了!

下一篇:

已经没有下一篇了!

常见问题

相关文章

猜你喜欢
发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务

推荐
外贸模板专题

模块描述

立即查看