V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
my101du
V2EX  ›  问与答

有没有人遇到过百度收录“不存在”的链接的问题?

  •  
  •   my101du · 2015-03-27 18:00:59 +08:00 · 1885 次点击
    这是一个创建于 3557 天前的主题,其中的信息可能已经有所发展或是发生改变。
    鄙站使用phpcms系统搭建。

    下面有若干二级域名,例如
    a.domain.com/
    b.domain.com/

    每个二级域名下都有若干栏目和文章,进行了伪静态处理(nginx),例如
    a.domain.com/category1/1.shtml
    b.domain.com/category2/2.shtml

    后台程序做过二次开发,实际上是会忽略url里“栏目”这个属性的(就是上面例子里的 category1,category2);只会处理后面的数字id去查找数据库里对应的记录,然后解析并显示出来。也就是说

    a.domain.com/category1/1.shtml

    b.domain.com/category2/1.shml
    会读取同样的“内容”(正文区域),但是显示的“模板”会不一样(除了正文以外的html)

    最近发现一个奇怪的问题:百度会收录“不存在”的链接:
    例如本来我数据库里有这样一条记录
    b.domain.com/category2/2.shml
    意思是id=2的文章,属于站点b下的category2栏目。

    但是百度会收录成
    a.domain.com/category1/2.shml
    也就是说,它记录了错误的站点和栏目

    我检查过了,前台页面里根本就没有这样的“错误”链接。

    那么百度这种混乱的收录,到底是怎么来的呢? 蜘蛛会去尝试这种“没有身份证”的链接吗?(虽然实际上可以打开,但根本没有任何地方可以找到入口)
    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2596 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 06:42 · PVG 14:42 · LAX 22:42 · JFK 01:42
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.