百度不收录网站?3步排查robots与sitemap

速达网络 SEO优化 2

​为什么你的网站上线3个月还是零收录?​
上周遇到一位做宠物用品的客户,网站搭建半年百度只收录了首页。检查发现他的robots.txt里误写了“Disallow: /” —— 相当于在百度爬虫面前挂了把锁。今天教你用3步自查工具,​​最快24小时触发重新抓取​​。


百度不收录网站?3步排查robots与sitemap-第1张图片

​第一步:5分钟揪出robots.txt的“隐形杀手”​
新手最容易犯的错:在宝塔面板或FTP里上传robots.txt时,​​多打一个空格或换行符​​就会让百度误判屏蔽规则。

  • ​致命错误1​​:Disallow: /wp-admin/ (屏蔽WordPress后台目录是对的,但漏加斜杠变成Disallow: wp-admin,会误封产品页)
  • ​致命错误2​​:Allow: /images/ 写在Disallow: / 下方(百度优先执行最后一条规则,导致Allow失效)
  • ​致命错误3​​:用中文标点“;”分隔规则(必须用英文符号“,”)

​实测案例​​:去年帮一家服装站修正robots.txt,把“Disallow: /product, /category”改为“Disallow: /product/ , /category/”,7天后产品页收录量从12涨到1400+。


​第二步:sitemap提交≠有效抓取​
很多人以为在百度站长平台提交sitemap.xml就万事大吉,却忽略两个细节:

  • ​细节1​​:sitemap文件必须用UTC时间戳(北京时区需减8小时),否则百度会判定“更新时间异常”
  • ​细节2​​:单个sitemap超过5万条URL或50MB,必须拆分(百度自动忽略超限文件)

​独家工具​​:用Screaming Frog扫描网站,​​导出时勾选“Priority”和“Changefreq”字段​​。上周用这个方法帮一个机械站调整sitemap,抓取频次从日均3次提升到27次。


​第三步:90%的人不知道的“抓取配额”规则​
百度给每个站点分配了每日抓取限额,如果发现“抓取失败”次数占比>15%,会降低优先级。重点排查:

  • ​服务器状态码​​:404过多会浪费配额(用Ahrefs批量查死链)
  • ​动态参数​​:带?utm_source的URL需用canonical标签规范
  • ​JS加载内容​​:爬虫无法执行Ajax请求(用Prerender.io预渲染)

​紧急预案​​:当抓取成功率达到85%时,立即在站长平台提交“配额加速申请”。曾帮一个医疗站用这招,抓取量从200/天暴涨到5000/天。


​深度验尸:3个被忽视的“伪收录”陷阱​

  • ​陷阱1​​:百度展示的“site:域名”结果包含已删除页面(需用死链工具主动提交)
  • ​陷阱2​​:移动端适配错误导致PC端收录但移动端不收录(用MIP改造工具检测)
  • ​陷阱3​​:HTTPS证书链不完整(用SSL Labs测试得分≥A才会被信任)

​数据佐证​​:今年3月百度公开的案例显示,​​sitemap中带有“noindex”标签的页面,收录率直接归零​​。如果你用了Yoast SEO插件,务必关闭“自动添加noindex到分类页”功能。

标签: 排查 收录 sitemap