V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
lysS
V2EX  ›  问与答

关于爬虫 IP 代理的疑问

  •  
  •   lysS · 2019-10-28 22:49:19 +08:00 · 1700 次点击
    这是一个创建于 1887 天前的主题,其中的信息可能已经有所发展或是发生改变。
    就是因为一般咋们花钱得到的代理 IP 很多也是代理提供商在全网扫描得到的,稳定性和可靠性都得不到保障。假如在某次爬取的过程中,目前使用的 ip 突然挂了,是不是这次爬取操作失败了,得重新再来过??
    8 条回复    2019-10-29 16:33:22 +08:00
    locoz
        1
    locoz  
       2019-10-28 23:31:23 +08:00 via Android
    不,正常的商业级代理 IP 都是家宽拨号弄的,只有某大象是爬的别人的。扫全网 IP 扫出来的代理服务器不管是稳定性还是速度还是 IP 质量,都不如拨号弄出来的 IP 好。
    locoz
        2
    locoz  
       2019-10-28 23:32:15 +08:00 via Android
    @locoz #1 “都不如拨号弄出来的 IP 好” -> “都不如拨号弄出来的代理服务器好”
    lysS
        3
    lysS  
    OP
       2019-10-29 08:52:28 +08:00
    @locoz 有推荐的吗?量不是很大,如果有量贩就最好的啦
    VisionKi
        4
    VisionKi  
       2019-10-29 09:19:25 +08:00
    我是把 IP 批量存入 redis 的 set 集合里,然后跑的过程,遇到不能用的就去掉这个 IP,再随机取一个 IP 重新爬一次这个页面。
    locoz
        5
    locoz  
       2019-10-29 10:56:15 +08:00
    @lysS #3 多贝云啊、芝麻代理啊都是可以的,IP 质量要求不高的话直接自己搭更便宜。
    QdouHuiQwaiLai
        6
    QdouHuiQwaiLai  
       2019-10-29 11:27:47 +08:00
    收费的代理一般都是用服务器拨号的 不是扫描得到的
    lysS
        7
    lysS  
    OP
       2019-10-29 16:31:23 +08:00
    @locoz 谢谢
    lysS
        8
    lysS  
    OP
       2019-10-29 16:33:22 +08:00
    @QdouHuiQwaiLai 在几家花几块钱试了一下,可用率都很低,多半是扫的,不过这几家是比较小的,主要想要量贩的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   991 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 106ms · UTC 19:38 · PVG 03:38 · LAX 11:38 · JFK 14:38
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.