V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
lostbirds
V2EX  ›  问与答

问一下海外的爬虫代理你们都用哪个。我测试了好几家都很慢。4, 5s 才能返回一个请求(不加代理请求是 100ms 左右)。还是你们在做海外爬虫项目的时候不用代理。用其他方式。请教一下

  •  
  •   lostbirds · 11 天前 · 1002 次点击
    17 条回复    2024-12-07 18:26:21 +08:00
    lostbirds
        1
    lostbirds  
    OP
       11 天前
    来个专业大佬。请教一下
    zeusho871
        2
    zeusho871  
       11 天前
    用国外 vps 请求就不会慢
    lostbirds
        3
    lostbirds  
    OP
       11 天前
    @zeusho871 可是我需要每次请求都要换 ip 。这怎么搞
    Abbeyok
        4
    Abbeyok  
       11 天前
    @lostbirds 说明你需要一个虚拟网卡级别的 vpn ,比如 clash 安装服务模式-开启 TUN 、快连直接支持虚拟网卡、QuickQ 开[TUN]专家(旧版)、nekoray 开 TUN ,都可以
    donaldturinglee
        5
    donaldturinglee  
       11 天前
    用过 smartproxy 和 webshare 吗?
    lostbirds
        6
    lostbirds  
    OP
       11 天前
    @donaldturinglee 用过 smartproxy 。这个好一点。3s 返回。我目标平台是日本的
    lostbirds
        7
    lostbirds  
    OP
       11 天前
    @Abbeyok 我研究一下
    NoOneNoBody
        8
    NoOneNoBody  
       11 天前
    实时项目?不然爬虫不需理会快慢,对方能承受多少(风控)才是重点
    donaldturinglee
        9
    donaldturinglee  
       11 天前
    @lostbirds 如果是做实时的,最好是对接 api. 如果只是需要数据集的话速度并不是指标
    shiguang
        10
    shiguang  
       10 天前
    我用的 smartproxy 住宅代理感觉很好啊 (题外话 我最近也在搞爬虫 要搞的网站刚上了 Cloudflare 不知道 op 是否知道绕开 Cloudflare 的方案呢 可付费解决🐶)
    defaw
        11
    defaw  
       10 天前
    要么把程序放海外跑,要么就嵌套代理,自己找个机场做第一层,然后你的爬虫代理是第二层
    NoOneNoBody
        12
    NoOneNoBody  
       10 天前   ❤️ 1
    @shiguang #10
    单 ip 5 秒盾没办法,需要多 ip 且每个 ip 用较长的间隔
    shiguang
        13
    shiguang  
       10 天前
    @NoOneNoBody ip 的话 可以去 smartproxy 用数据中心代理 我看 smartproxy 的也不贵 30 刀起步 50GB 池里的 ip 随便用
    昨天朋友给我推了一个 capsolver 我看官网号称可以越过 Cloudflare 照着配置了一下 不太行 老哥有成熟的方案吗🤔
    x86
        14
    x86  
       10 天前
    海外数据海外机爬呀,你不考虑出口延迟的吗
    NoOneNoBody
        15
    NoOneNoBody  
       10 天前
    @shiguang #13
    没有,我之前搜了一圈,试过几个别人提供的方案都不行,最后还是拉长了间隔才能过

    我不是职业爬虫,只是爬一些个人爱好的数据集,不急,爬到就行(我称为“自动浏览”,😅),也不想搞到人家服务器响应迟缓结果我还爬不到
    所以不舍得花钱,也不需要太快,扔后台单线程慢慢跑就是了,上个月爬一个站 11 万 page 非实时信息,断断续续用了 5 天

    职业爬虫应该上集群去爬,且用 ip 池,并发,只要客户标识每个不同,不搞死
    lysShub
        16
    lysShub  
       10 天前
    @Abbeyok 虚拟网卡只是内网的,只要是同一个公网 ip 直接 5s
    lostbirds
        17
    lostbirds  
    OP
       10 天前
    @x86 是海外机的呀。很多代理你根本在国内是不能连的。我海外机一千带宽几十 ms 就能访问。是因为加了代理之后才慢。加代理是因为要分散 ip 做批量
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5329 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 07:00 · PVG 15:00 · LAX 23:00 · JFK 02:00
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.