最近自己用Hexo搭建了一个简简单单的博客,最初是同步到Github Pages,然而发现在百度站长工具提交sitemap会显示抓取失败,想着可能是某些原因百度不能抓取Github,所以就把博客迁移到GitCafe Pages,可是提交sitemap给百度依然还是抓取失败。
自己也考虑过也许是用Hexo里面插件生成的sitemap格式不符合百度要求,所以在网上也用工具生成了自己网站的sitemap.xml,提交上去还是抓取失败。
因为自己在这一方面不太熟悉,不清楚究竟是哪一环节出了问题,所以想请问一下大家?
图片为百度站长上显示抓取失败的截图:
1
Tiande 2015-04-24 16:52:04 +08:00
hexo 的 sitemap 确是不符合百度标准,以下这个插件生成的可以:
https://github.com/coneycode/hexo-generator-baidu-sitemap 但是百度本身不能抓取 github 数据,所以无法提交。 你可以在 hexo 下生成规范的 百度sitemap ,然后修改成 gitcafe 地址下的,再提交试试。 最好还是找个 免/收费空间 测试一下,万一 百度 连 gitcafe 也不能抓取呢。 (国内主机都要备案,我是没干啥党必欲除之的事情,但真麻烦啊,在万网买域名送的两年免费空间,碰都没碰。) “怎么说呢,我只能说百度太2了” |
2
eleveneat OP 其实hexo-generator-baidu-sitemap这个插件我也用过,也不行......
难道是因为我没有备案的原因? |
3
eleveneat OP |
4
Tiande 2015-04-24 18:12:48 +08:00
@eleveneat 只有国内主机需要备案。你用 gitcafe 备什么。
可能是百度故意不收录的吧,你换个 vps 或 空间 试试。 |
5
BeanMrx 2016-02-24 22:10:03 +08:00
因为 Github 屏蔽了百度的爬虫,我的也一样。
我域名没有备案、没有 VPS 也没空间,整了一个用新浪云免费云主机的方案。 http://blog.beanmr.com/2016/02/24/solve-github-baidu-spider-blocking/ |
6
BeanMrx 2016-02-24 22:14:17 +08:00
从你放出来图看~
百度应该缓存了你的 DNS 结果 199.27.75.133 是 Github 的服务器,也就是百度还认为你的博客在 Github 上。 你可以进入抓取诊断随便抓你的一个地址,如果抓取失败的话你注意一下爬虫抓的 IP ,直接放到浏览器访问如果不是你的服务器,你可以点击反馈 IP ,百度会重新 DNS 你的服务器 IP 。 还有一种可能是你忘了改 DNS 啦~哈哈~ |