V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
fdsfsdfsdf3334
V2EX  ›  问与答

python抓某网站的数据,有什么可以模拟浏览器的吗?

  •  
  •   fdsfsdfsdf3334 · 2013-12-29 22:52:49 +08:00 · 5727 次点击
    这是一个创建于 3983 天前的主题,其中的信息可能已经有所发展或是发生改变。
    是这样的
    要登陆某网站才可以抓数据

    主要是他的登陆算法,无法破解,而且就算破解了,他也是一天一变 ,几个小时变化一次

    所以我完全放弃破解他的算法的想法

    如果我模拟浏览器登陆的话,只需要让浏览器自动填写表单,登陆即可,

    之前用的qt c++开发的,用的webkit 做浏览器,然后 登陆,获取内容,然后进行操作

    现在换python, 于是我用pyqt来做浏览器 辅助我获取数据,但这样的话,好累赘

    有没有轻一点的框架 可以替代我的浏览器

    不晓得我描述清楚了没

    求大家帮助
    17 条回复    2016-12-19 01:04:43 +08:00
    imom0
        1
    imom0  
       2013-12-29 23:31:19 +08:00   ❤️ 1
    把登录了的cookies导出行么,然后给爬虫用。
    Kjuly
        2
    Kjuly  
       2013-12-29 23:33:39 +08:00   ❤️ 1
    mechanize 或者 selenium
    kevinroot
        3
    kevinroot  
       2013-12-29 23:37:27 +08:00   ❤️ 1
    requests不行?是有验证码?
    geeklian
        4
    geeklian  
       2013-12-29 23:50:45 +08:00 via iPad   ❤️ 1
    想起来曾经单位内部网站上抓取数据,.net,的post请求里的一堆东西不知道干啥的。python抓不下来,结果我换的autoit+ie8...直接模拟鼠标键盘操作了。
    fdsfsdfsdf3334
        5
    fdsfsdfsdf3334  
    OP
       2013-12-30 00:01:50 +08:00
    @imom0 软件需要长期在服务器上运行,cookies 3天过期
    fdsfsdfsdf3334
        6
    fdsfsdfsdf3334  
    OP
       2013-12-30 00:02:29 +08:00
    @kevinroot 没有验证码,但不排除以后他可能增加验证码
    fdsfsdfsdf3334
        7
    fdsfsdfsdf3334  
    OP
       2013-12-30 00:04:34 +08:00
    @Kjuly 哦 谢谢 我研究下
    airyland
        8
    airyland  
       2013-12-30 00:29:51 +08:00   ❤️ 1
    为了对付某站验证码在用的采集方法:
    NodeJS + socket.io + phantomjs

    1.建socket服务端

    2.phantomjs 打开目标网站,执行表单填写,如果有验证码,则render一张图,调用stdin来手工输入验证码。在phantomjs里每隔一段时间执行get页面操作保持会话。与服务端建立socket连接

    3.用NodeJS或者浏览器端javascript连接到socket服务端并发送采集请求,phantomjs里面收到请求并获取数据发送到客户端

    done...
    fdsfsdfsdf3334
        9
    fdsfsdfsdf3334  
    OP
       2013-12-30 00:36:05 +08:00
    lijinma
        10
    lijinma  
       2013-12-30 09:53:10 +08:00
    @airyland phantomjs 很好很强大。
    Stile
        11
    Stile  
       2013-12-30 11:55:30 +08:00
    来个投机取巧的,这网站有手机版的么?有的话直接模拟手机不得了,改下UA就好,想咋弄咋弄!
    fdsfsdfsdf3334
        12
    fdsfsdfsdf3334  
    OP
       2013-12-30 13:54:07 +08:00
    木有手机版的
    @Stile
    Stile
        13
    Stile  
       2013-12-30 15:50:57 +08:00
    @fdsfsdfsdf3334 地址呢?我换UA试试。。嘿嘿 好奇中
    fdsfsdfsdf3334
        14
    fdsfsdfsdf3334  
    OP
       2013-12-30 16:11:07 +08:00
    @Stile 淘宝
    Stile
        15
    Stile  
       2014-01-01 22:35:18 +08:00
    @fdsfsdfsdf3334 淘宝啊 ,你是想编辑商品?那用淘宝助理就可以了,没必要抓来抓去的。。。
    Stile
        16
    Stile  
       2014-01-01 22:37:35 +08:00
    @fdsfsdfsdf3334 淘宝也有手机版的啊,你可以登录 m.taobao.com 试试
    ibopo
        17
    ibopo  
       2016-12-19 01:04:43 +08:00
    scrapy-js
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5593 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 37ms · UTC 08:15 · PVG 16:15 · LAX 00:15 · JFK 03:15
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.