robots.txt是网站上最小的纯文本文件之一,也是最容易出错的文件之一。robots.txt主要用于控制各大搜引擎可抓取/不可抓取的页面,使用得当可以帮助网站获得更多曝光量,保护隐私页面,否则很容易完全阻止搜索引擎爬虫并将网站从地图上抹去,导致网站文件无法被搜索引擎发现。接下来将全面解析网站robots.txt文件及使用方法。
一、robots.txt文件是什么
robots.txt文件位于网站的根目录下,核心功能是规定哪些搜索引擎机器人可以抓取网站内容。其中Disallow:/指令会阻止所有机器人访问网站的任何页面,仅适合用于暂存站点或测试场景,在正式上线的网站中使用风险极高,一旦误用可能导致整个网站被搜索引擎“降索引”(deindex),无法出现在搜索结果里。
若需真正隐藏网站内容,建议使用元标签noindex、密码保护或身份验证等更可靠的方式。同时,无论何种场景,都应通过Google Search Console或technicalseo.com等专业工具,对robots.txt文件的配置进行测试,避免出现失误。
Google搜索引擎如何解释robots.txt?
若没有配置规范的robots.txt文件,Google机器人会不受限制地漫游网站并索引所有内容,可能导致一些站长不希望出现在搜索结果中的页面被收录,比如网站管理页面、重复内容页面或测试环境页面。
若错误地对所有用户代理使用Disallow:/指令(即阻止所有机器人访问),会直接导致搜索引擎爬虫无法进入网站的任何部分,这种失误可能让整个网站从Google搜索结果中被清除,引发严重的SEO问题。
注意:Google对robots.txt文件的大小有500KiB的限制,超过该大小的内容会被直接忽略。
此外,robots.txt并非阻止网页进入Google搜索结果的有效机制,若需防止页面出现在搜索结果中,应使用noindex指令。
二、六个核心robots.txt语法1、用户代理指令(User-agent)
“User-agent”规则对robots.txt文件很重要,直接决定规则适用于哪个机器人或爬虫。而每个搜索引擎都有一个特定的用户代理名称。例如谷歌的网络爬虫自称“googlebot”,百度的网络爬虫为“baiduspider”。定位一个特定的用户代理,如镇针对Google爬虫设定规则:
User-agent:Googlebot
2、禁止robots.txt指令(Disallow)
robots.txt“Disallow”规则直接决定网站的哪些部分应该对搜索引擎隐藏。此规则指示搜索引擎机器人不要访问网站上的特定路径组件,如文件夹、文件类型或单个url。
例如使用“Disallow”规则来阻止机器人进入网站的管理区域:
User-agent:*
Disallow:/admin/
将阻止所有以“/admin/”开头的url被搜索引擎机器人索引。
使用通配符:
User-agent:*
Disallow:/*.pdf$
使用通配符“*”可以阻止网站上的所有pdf文件。这里建议大家在进行更改后检查robots.txt文件,确保不会阻止网站的一些重要部分。
3、允许指令(Allow)
“Disallow”阻止访问网站的某些区域,而“Allow”指令可以在被阻止的文件中设置例外。可以与“disallow”一起出现,即使整个目录被阻止也可以访问特定的文件或页面。
例如我们想要Google图片在该目录中看到一个特殊的图像,那么可以这样设置:
User-agent:Googlebot-Image
Allow:/images/featured-image.jpg
User-agent:*
Disallow:/images/
在这种情况下,首先让googlebot-image访问’featured-image.jpg’,然后阻止所有其他机器人看到’/images/’目录。
4、站点地图指令(Sitemap)
“sitemap”指令指示搜索引擎在哪里找到XML站点地图。XML站点地图是显示站点上所有关键页面的文件,让搜索引擎更容易抓取和索引网站内容。
将站点地图添加到robots.txt文件格式如下:
Sitemap:https://www.[your website name].com/sitemap.xml
确保将“https://www.[your website name].com/sitemap.Xml”更改为真实站点地图URL。可以使用Google Search Console提交站点地图。
推荐阅读:《谷歌站长工具(Google Search Console)使用教程》
5、抓取-延迟指令(Crawl-delay)
“Crawl-delay”指令控制搜索引擎如何快速抓取网站,主要目标是防止当许多机器人试图同时访问页面时,让web服务器负载过重
“Crawl-delay”时间以秒为单位。例如将Bingbot disallow指令与抓取延迟配对,如下所示:
User-agent:Bingbot
Crawl-delay:10
注:谷歌爬虫(Googlebot)不遵循此指令,但是可以通过Google Search Console调整抓取速率,以避免web服务器过载。
6、noindex指令
“noindex”命令可防止搜索引擎为你网站上的特定页面编制索引。但是Google不再正式支持此规则。
一些测试表明,robots.txt中的“noindex”仍然有效。然而仅仅依靠这种方法并不能说明什么。相反,建议大家可以使用meta robots标签或x-robots-tagHTTP标头来更好地控制索引。
三、robots.txt用法示例robots.txt有不同的规则,具体取决于站长想要为搜索引擎机器人提供多少访问权限。这里有几个常见的例子:
1、允许所有机器人访问整个网站
User-agent:*
Disallow:
“User-agent*”所有搜索引擎机器人(Googlebot,Bingbot等)都可以访问该网站。
“Disallow”字段表示没有限制,机器人可以抓取所有内容。
2、禁止所有机器人访问特定目录
User-agent:*
Disallow:/private-directory/
阻止所有搜索引擎机器人(如Googlebot disallow)访问“/private-directory/”中的任何内容。
3、禁止Googlebot抓取特定目录
User-agent:Googlebot
Disallow:/images/
User-agent:*
Disallow:/private-directory/
4、指定XML站点地图的位置
四、robots.txt规避SEO错误指南User-agent:*
Disallow:
Sitemap:https://www.[your website name].com/sitemap.xml
1、robots.txt放在正确位置
robots.txt文件必须存放在网站的顶级目录,比如https://www.[example].com/robots.txt。放错地方搜索引擎会找不到它,进而可能默认对你的网站进行全量抓取,导致不必要的资源浪费。
2、绝不轻易屏蔽重要页面
除非万不得已,否则绝不能阻止高价值URL的抓取,像/blog/(博客板块)、/services/(服务页面)或产品分类页等。一旦屏蔽这些页面,会直接导致它们无法被搜索引擎索引,最终造成网站流量流失。
如果确实需要限制部分内容,建议用更精准的禁止规则,比如只屏蔽某个私有子页面:
Disallow:/category/private-subpage/
3、善用通配符提升屏蔽精准度
通配符能帮你高效屏蔽带有特定模式的URL或文件类型,既提升爬虫抓取效率,又能避免重复内容、低价值内容被索引。常见用法如下:
- 屏蔽带筛选参数的页面:Disallow:/*?filter=*(比如商品列表页的筛选结果页)
- 屏蔽PDF文件:Disallow:/*.pdf$(若无需PDF文件被索引)
4、禁止屏蔽CSS和JS文件
阻止搜索引擎抓取CSS(样式文件)或JavaScript(脚本文件)会导致Google等搜索引擎无法正确渲染你的网页,不仅会影响网站在搜索结果中的展示效果,还可能拉低页面加载速度相关的排名(比如核心Web生命体征评分)。请务必允许爬虫访问这些基础资源,保障网页正常渲染和用户体验。
5、在robots.txt中关联XML站点地图
在robots.txt文件里添加“Sitemap:”指令能主动引导搜索引擎爬虫找到网站的所有关键页面,格式如下:
Sitemap:https://www.example.com/sitemap.xml
6、用robots.txt优化爬虫抓取预算
如果你的网站有数千个低优先级页面(比如标签页、重复的筛选存档页等),通过robots.txt屏蔽这些页面能让搜索引擎爬虫把有限的“抓取预算”集中在高价值内容上,比如产品详情页、核心服务页等,避免优质页面因抓取资源不足而未被索引。
7、敏感内容绝不能只靠robots.txt保护
robots.txt仅能阻止爬虫抓取页面,却无法阻止页面被索引。要是其他网站链接到了你的敏感页面,这些页面仍有可能出现在搜索结果中,导致信息泄露。
对于隐私数据、内部页面等敏感内容,正确的做法是使用密码保护、用户身份验证(如登录才能访问),或添加noindex元标记/HTTP标头,而非单纯依赖robots.txt。
8、定期验证robots.txt文件有效性
建议定期用工具检查robots.txt是否存在问题,避免因文件错误影响SEO。常用工具包括:
- Google Search Console的“robots.txt测试工具”
- Rank Math的robots.txt编辑器
- technicalseo.com的robots.txt验证工具
- TametheBot的robots.txt检测工具
重点排查以下问题:
- 文件丢失或存放位置错误
- 语法问题(比如冒号遗漏、通配符使用不当)
- 误写的禁止规则(比如屏蔽了本应开放的页面)
总之,robots.txt文件是管理搜索引擎爬虫的重要工具,但需严格遵循最佳实践并规避常见错误,定期检查、测试和更新,才能让它成为SEO的“助力”,而非“阻力”。
推荐阅读:
《WordPress中迅速修改Robots.txt文件教程》
(本文由美国主机侦探原创,转载请注明出处“美国主机侦探”和原文地址!)

微信扫码加好友进群
主机优惠码及时掌握

QQ群号:938255063
主机优惠发布与交流