V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
yurman
V2EX  ›  程序员

请教一下爬虫技术

  •  
  •   yurman · 261 天前 · 4317 次点击
    这是一个创建于 261 天前的主题,其中的信息可能已经有所发展或是发生改变。

    淘宝的生意参谋,这种平台为啥有全网各平台的数据,甚至还可以看竞争对手的数据。。。 我用 rpa 试过模拟人的操作去获取,效率低不说还经常会被封号。它们这种平台是如何做到不会被封号,还能实时更新最新数据,这是怎么做到的?

    20 条回复    2024-03-05 17:53:23 +08:00
    ZnductR0MjHvjRQ3
        1
    ZnductR0MjHvjRQ3  
       261 天前
    你难道就没想过 有 openAPI 吗?
    securityCoding
        2
    securityCoding  
       261 天前
    买的数据
    ZSeptember
        3
    ZSeptember  
       261 天前
    应该是互相爬的吧。
    前段时间还有新闻,京东的爬虫被 pdd 屏蔽了。https://36kr.com/p/2610860492414852
    ZSeptember
        4
    ZSeptember  
       261 天前
    爬虫是有技术的,淘宝的听说就挺难搞的。
    yurman
        5
    yurman  
    OP
       261 天前
    @Motorola3 有猜过是走接口,老板不知道哪里看的别人说是用啥爬虫技术实现的,我觉得不可能有这样的能够大量爬取还能防封
    yurman
        6
    yurman  
    OP
       261 天前
    @ZSeptember 淘宝是很麻烦,已经是低量数据爬取,完全模拟人为操作。偶尔还是能触发警告
    BeiChuanAlex
        7
    BeiChuanAlex  
       261 天前
    很简单,买数据,给钱就能办到。你陷入到了技术的思维漩涡,线下花钱可以办到线上花大力气都办不到的事情。
    yurman
        8
    yurman  
    OP
       261 天前
    @BeiChuanAlex 我是觉得是没有啥技术能做到,可惜我只是个打工仔,老板不信 :(
    wanniwa
        9
    wanniwa  
       261 天前
    有的公司是专门成立爬虫组,立项去攻克研究的。投入成本就会有收获。一步步去拆解剖析
    DT27
        10
    DT27  
       261 天前
    淘宝我真人去访问都费劲,动不动就弹验证,还经常验证失败。。。
    yahooer
        11
    yahooer  
       261 天前
    也有第三方接口供应商 像淘宝的比如这个 www.idatariver.com/zh-cn/projects
    lilei2023
        12
    lilei2023  
       261 天前
    淘宝这个真人访问,都经常弹,被人机器了,真恶心,
    angryfish
        13
    angryfish  
       261 天前
    商业级爬,是需要资源的。
    你有多少个独立的 ip 地址?你有多少个用户号?
    曾经在某旅游网站做个爬友商相关的项目,光买 ip 资源就用了三百万,还不包含自己机房的 ip
    该花的钱还是得花。
    corcre
        14
    corcre  
       261 天前
    淘宝的反爬做的挺好的(甚至能防正常用户), 目前说到低成本爬淘宝数据站立的老哥一个个都是摇头
    Blanke
        15
    Blanke  
       261 天前
    有商业的成熟方案,很多数据公司内部都是全网怕,tb jd pdd 这些都是基操了,只要花得起升本,肯定能搞定
    Blanke
        16
    Blanke  
       261 天前
    @Blanke 打错。有商业的成熟方案,很多数据公司内部都是全网爬,tb jd pdd 这些都是基操了,只要花得起成本,肯定能搞定
    lizhenda
        17
    lizhenda  
       261 天前
    @angryfish 我觉得这 300w 大概率是被中间吃回扣吃掉了
    sergio948
        18
    sergio948  
       261 天前
    我最近看豆瓣的反爬也是挺 6 的,第一次遇到,看抓包情况好像是做了加密,反正没看懂
    wanniwa
        19
    wanniwa  
       261 天前
    @sergio948 #18 豆瓣可是以前所有爬虫新手的最爱爬的网站了。估计被爬怕了
    hackerfans
        20
    hackerfans  
       261 天前
    淘客有 API
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   960 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 21:38 · PVG 05:38 · LAX 13:38 · JFK 16:38
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.