V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
wty95
V2EX  ›  程序员

网页自动化怎么攻克自动变化的验证码?

  •  
  •   wty95 · 34 天前 · 4596 次点击
    这是一个创建于 34 天前的主题,其中的信息可能已经有所发展或是发生改变。
    51 条回复    2024-12-22 22:54:20 +08:00
    seansong
        1
    seansong  
       34 天前   ❤️ 10
    很刑
    Abbeyok
        2
    Abbeyok  
       34 天前
    ddddocr
    nyxsonsleep
        3
    nyxsonsleep  
       34 天前
    直接买服务,根据难度,会比较贵。
    破解验证码本身就能赚钱,技术含量也比爬虫高,甚至可能是里面技术含量最高的内容。
    NoOneNoBody
        4
    NoOneNoBody  
       34 天前   ❤️ 1
    gov.cn ……这个不敢碰
    z1829909
        5
    z1829909  
       34 天前 via Android
    既然都 selenium 了,直接拿到页面图片文件送进 ocr 就行了,不用关心他怎么获取的。
    顺便,gov.cn 域名,你最好别搞。
    xuanbg
        6
    xuanbg  
       33 天前
    V2 真是什么样的人才都有
    dji38838c
        7
    dji38838c  
       33 天前
    水平越初,胆子越大
    klxyy
        8
    klxyy  
       33 天前
    GOV.CN 你也敢弄,果然很刑
    Leofits
        9
    Leofits  
       33 天前 via Android
    很刑很可拷
    hanssx
        10
    hanssx  
       33 天前
    兄弟,这个 uuid 要是根据客户端生成的,你有点自我暴露了就
    csulyb
        11
    csulyb  
       33 天前   ❤️ 1
    你想想为啥人家要弄一下验证码? 本来可以不用弄验证码的,就是因为楼主这样的憨憨 进去太多了
    shadowyue
        12
    shadowyue  
       33 天前
    很刑,出来了给大家讲讲里边的生活
    vevlins
        13
    vevlins  
       33 天前
    爬虫把政务网站搞挂被判刑的事你是没听说过?
    huage
        14
    huage  
       33 天前
    肉身在国外随便搞,在国内老老实实。
    fanhaipeng0403
        15
    fanhaipeng0403  
       33 天前
    疯了吧你。
    sir283
        16
    sir283  
       33 天前
    一、找打码平台,租接口。
    二、逆向网页 js ,尝试绕过对应逻辑,使其拿到对应的算法与出入参数,模拟 success 请求。类似中间人。
    三、黑掉对方服务器,直接提取数据。
    四、自己训练 ocr 模型。
    五、放弃。
    TArysiyehua
        17
    TArysiyehua  
       33 天前
    提供技术咨询,有意联系
    paopjian
        18
    paopjian  
       33 天前
    爬政府网?你在想什么呢
    sampeng
        19
    sampeng  
       33 天前 via iPhone
    刚看完新闻,年底了进去一堆爬虫小子…我还想哪来二的猛人爬个网站把自己送进去。这不就看到,有哥们急着进去吃年夜饭。
    gjw8u8
        20
    gjw8u8  
       33 天前 via Android
    这个牛逼
    Lukedis
        21
    Lukedis  
       33 天前
    狠人大帝都没你狠,怼着政府网站爬
    ggabc
        22
    ggabc  
       33 天前 via Android
    注意原则
    kele999
        23
    kele999  
       33 天前
    不要犯罪
    Liftman
        24
    Liftman  
       33 天前
    你好,已将您的行为投递到对应网信办。
    opengps
        25
    opengps  
       33 天前
    爬虫不爬 gov 这是底线
    suhu
        26
    suhu  
       33 天前
    @opengps robtos.txt 没有禁止的呢,一天只读一次的呢,这种大家没有接触过吗
    raycool
        27
    raycool  
       33 天前
    这种验证码没难度,但是这类网站很刑
    opengps
        28
    opengps  
       33 天前
    @suhu gov 级别比 robtos.txt 制定者的级别要高,所以在 gov 眼前一切更低标准都不适用
    Y25tIGxpdmlk
        29
    Y25tIGxpdmlk  
       33 天前
    目测这个验证码没什么难度,用 10 年前的打码技术都能轻松搞定,更何况现在有些 AI 识别和人工打码了。

    还有,验证码哪个不是随机变化的,我还以为是那种 GIF 的动态验证码呢
    et5494
        30
    et5494  
       33 天前
    0 难度,但是不敢
    guanhui07
        31
    guanhui07  
       33 天前
    果然很刑
    TophTab
        32
    TophTab  
       33 天前
    GOV ?老哥干的是体制内的活?
    我只知道以前大学老师会去干这个
    EndlessMemory
        33
    EndlessMemory  
       33 天前
    截图识别啊
    wzblog
        34
    wzblog  
       33 天前
    放过自己吧,你看他验证码连基本的干扰都不做,随便识别的。搞 gov 很容易吃国家饭的。
    42V0CdLjCU494ogF
        35
    42V0CdLjCU494ogF  
       33 天前
    大把这样的服务商,比如 https://www.jfbym.com/
    非要自己写的话用 OCR+AI 自己调教一下也够了
    dbow
        36
    dbow  
       33 天前
    建议不搞,政府的网站,你也知道的,性能不可能很好,万一被你刷崩了,估计要吃牢饭。
    Ackvincent
        37
    Ackvincent  
       33 天前
    直接买服务,不要再验证码上折腾,掉服务商的 API 就行了。
    angryfish
        38
    angryfish  
       33 天前
    即使你可能是某个地市或者啥的供应商,但是你用爬虫把省数据局的网站搞崩了,作为维护系统的乙方,为了能继续拿到这个项目,他们肯定想方设法甩锅,然后你一定会揪出来。然后恭喜你,你可能得进去了。
    isSamle
        39
    isSamle  
       33 天前
    https://www.jszwfw.gov.cn/jsjis/component/verifyCode.do?code=4&random=0.41377034550816183
    通过随机数后端计算返回验证码图片,上 OCR 吧
    chenzi0103
        40
    chenzi0103  
       32 天前
    给到 llm 识别就好了 用个好的 llm 模型
    shangfabao
        41
    shangfabao  
       32 天前
    selenium +ocr,ocr 用的第三方库 搞过
    wty95
        42
    wty95  
    OP
       32 天前
    @seansong 各位老哥 我不是爬数据的,这个是政府公开中介超市,每天有项目可以报名,摇号中了就做业务,每天一堆报名,根本没精力手动填,所以想自动化报名。

    请问这个也违法么?
    zengxs
        43
    zengxs  
       32 天前
    @wty95 重点不是爬数据,而是你这种行为很容易把网站搞挂
    gov 网站大多数本身就做的很垃圾,手动刷刷都有可能挂了,但是你手动刷的他也不能甩锅给你
    如果是被你程序刷挂了,恭喜你喜提破坏计算机系统罪
    xuhuanzy
        44
    xuhuanzy  
       32 天前 via Android
    @wty95 他崩了只要查到是你的流量异常,你就百分百入狱。
    lanten
        45
    lanten  
       32 天前
    有趣的,看到 gov 就吓到腿软
    angryfish
        46
    angryfish  
       32 天前
    @lanten 有时候是百口难辨的。比如前几年的美国一位安全教授通过查看 html 页面获得几位老师的社保号码,被认为是黑客攻击。
    securityCoding
        47
    securityCoding  
       32 天前
    兄弟,有些内部的爬虫自动识别 gov.cn 关键词 return 掉。。。
    yuchen198
        48
    yuchen198  
       32 天前
    gov.cn 确实那啥最好别碰,我当时爬了药品监督局几万条数据,不过我那是一次性的,不是每天都要
    seansong
        49
    seansong  
       32 天前
    @wty95 你这个自动化报名,不就是典型的非法破坏和入侵计算机系统么,非常刑
    akura
        50
    akura  
       31 天前
    先生大才
    BBBOND
        51
    BBBOND  
       26 天前
    https://www.gov.cn/zhengce/content/202409/content_6977766.htm
    自 2025 年 1 月 1 日起施行

    第十八条 网络数据处理者使用自动化工具访问、收集网络数据,应当评估对网络服务带来的影响,不得非法侵入他人网络,不得干扰网络服务正常运行。

    第五十五条 违反本条例第十二条、第十六条至第二十条、第二十二条、第四十条第一款和第二款、第四十一条、第四十二条规定的,由网信、电信、公安等主管部门依据各自职责责令改正,给予警告,没收违法所得;拒不改正或者情节严重的,处 100 万元以下罚款,并可以责令暂停相关业务、停业整顿、吊销相关业务许可证或者吊销营业执照,对直接负责的主管人员和其他直接责任人员可以处 1 万元以上 10 万元以下罚款。

    先生请自重
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1140 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 35ms · UTC 23:40 · PVG 07:40 · LAX 15:40 · JFK 18:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.