为什么你的网站上线3个月还是零收录?
上周遇到一位做宠物用品的客户,网站搭建半年百度只收录了首页。检查发现他的robots.txt里误写了“Disallow: /” —— 相当于在百度爬虫面前挂了把锁。今天教你用3步自查工具,最快24小时触发重新抓取。
第一步:5分钟揪出robots.txt的“隐形杀手”
新手最容易犯的错:在宝塔面板或FTP里上传robots.txt时,多打一个空格或换行符就会让百度误判屏蔽规则。
- 致命错误1:Disallow: /wp-admin/ (屏蔽WordPress后台目录是对的,但漏加斜杠变成Disallow: wp-admin,会误封产品页)
- 致命错误2:Allow: /images/ 写在Disallow: / 下方(百度优先执行最后一条规则,导致Allow失效)
- 致命错误3:用中文标点“;”分隔规则(必须用英文符号“,”)
实测案例:去年帮一家服装站修正robots.txt,把“Disallow: /product, /category”改为“Disallow: /product/ , /category/”,7天后产品页收录量从12涨到1400+。
第二步:sitemap提交≠有效抓取
很多人以为在百度站长平台提交sitemap.xml就万事大吉,却忽略两个细节:
- 细节1:sitemap文件必须用UTC时间戳(北京时区需减8小时),否则百度会判定“更新时间异常”
- 细节2:单个sitemap超过5万条URL或50MB,必须拆分(百度自动忽略超限文件)
独家工具:用Screaming Frog扫描网站,导出时勾选“Priority”和“Changefreq”字段。上周用这个方法帮一个机械站调整sitemap,抓取频次从日均3次提升到27次。
第三步:90%的人不知道的“抓取配额”规则
百度给每个站点分配了每日抓取限额,如果发现“抓取失败”次数占比>15%,会降低优先级。重点排查:
- 服务器状态码:404过多会浪费配额(用Ahrefs批量查死链)
- 动态参数:带?utm_source的URL需用canonical标签规范
- JS加载内容:爬虫无法执行Ajax请求(用Prerender.io预渲染)
紧急预案:当抓取成功率达到85%时,立即在站长平台提交“配额加速申请”。曾帮一个医疗站用这招,抓取量从200/天暴涨到5000/天。
深度验尸:3个被忽视的“伪收录”陷阱
- 陷阱1:百度展示的“site:域名”结果包含已删除页面(需用死链工具主动提交)
- 陷阱2:移动端适配错误导致PC端收录但移动端不收录(用MIP改造工具检测)
- 陷阱3:HTTPS证书链不完整(用SSL Labs测试得分≥A才会被信任)
数据佐证:今年3月百度公开的案例显示,sitemap中带有“noindex”标签的页面,收录率直接归零。如果你用了Yoast SEO插件,务必关闭“自动添加noindex到分类页”功能。