V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
14ly
V2EX  ›  奇思妙想

想到一个专治 spider 不守规矩的方法

  •  
  •   14ly · 2015-01-18 12:11:27 +08:00 · 4248 次点击
    这是一个创建于 3597 天前的主题,其中的信息可能已经有所发展或是发生改变。

    看到了http://www.v2ex.com/t/162904
    对付这种情况,可以采用的方法是为爬虫建立专用页面,返回垃圾信息。

    但是我才不会做这么损人不利己的事情

    明明可以借助这个特性搭建自己的私人查询库么

    ./robots.txt:
    User-agent: *
    Disallow: /shegongku/

    ./shegongku/index.html:
    //在这里把各种需要查询又不想浪费自己服务器资源的索引
    //建议加密

    使用时

    直接http://www.haosou.com/s?q=site:{yourhost} inurl:shegongku {yourkeyword}

    10 条回复    2015-01-20 13:31:05 +08:00
    vibbow
        1
    vibbow  
       2015-01-18 12:18:32 +08:00
    然后你就被K站了。
    14ly
        2
    14ly  
    OP
       2015-01-18 12:20:56 +08:00
    @vibbow K就K,反正我的./robots.txt里已经写了不容许访问,这样不守规矩的爬虫K了才好
    vibbow
        3
    vibbow  
       2015-01-18 12:23:11 +08:00
    @14ly 如果我没记错的话,Disallow了后并不是说蜘蛛就不会爬了
    Google之类的还是会爬的,然后分析外链,只是不会索引其中的内容而已。
    (好像还是会索引Title的)
    vibbow
        4
    vibbow  
       2015-01-18 12:25:59 +08:00
    However, robots.txt Disallow does not guarantee that a page will not appear in results: Google may still decide, based on external information such as incoming links, that it is relevant. If you wish to explicitly block a page from being indexed, you should instead use the noindex robots meta tag or X-Robots-Tag HTTP header. In this case, you should not disallow the page in robots.txt, because the page must be crawled in order for the tag to be seen and obeyed.
    14ly
        5
    14ly  
    OP
       2015-01-18 12:31:33 +08:00
    @vibbow 还真是,要添加<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">或者X-Robots-Tag HTTP header,想要试验的同学注意了。
    另外我找不到append了,翻了一下自己以前发过的帖子,明明有append
    imn1
        6
    imn1  
       2015-01-18 13:05:50 +08:00   ❤️ 1
    防君子不妨小人
    如果我本身就不打算遵守什么协议的话,我一定会这样做:
    做个浏览器,用户访问什么 url 都返回服务器(某公司好像就是这样),然后服务器整合信息,用户就是爬虫
    9hills
        7
    9hills  
       2015-01-18 13:50:55 +08:00 via iPhone
    天真,都会有一个守规矩的爬虫和一个不守规律的专爬disallow的爬虫的,只是后者不展示而已
    honeycomb
        8
    honeycomb  
       2015-01-18 15:50:00 +08:00
    强制要求登陆?
    设定UA限制?
    jilaoduizhang
        9
    jilaoduizhang  
       2015-01-19 16:36:25 +08:00
    @14ly 同感 (●'◡'●)
    lfeng
        10
    lfeng  
       2015-01-20 13:31:05 +08:00
    robots.txt 本身就只是一个君子协定,国产爬虫几乎没有遵守的各种照爬不误,真不想他们爬只能根据UA定向输出内容
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1340 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 17:40 · PVG 01:40 · LAX 09:40 · JFK 12:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.