V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
kdwycz
V2EX  ›  Python

如何使用爬虫提取 QQ 说说?

  •  
  •   kdwycz ·
    kdwycz · 2015-05-13 16:25:40 +08:00 · 6538 次点击
    这是一个创建于 3481 天前的主题,其中的信息可能已经有所发展或是发生改变。

    刚刚接触Python爬虫,只会最基础的知识。现在存在的问题:

    • 爬取QQ空间说说的话,我在源代码里面没发现说说内容,只有一些JS代码……不知道怎么解决
    • 而且应该还有登录QQ的问题(想爬取的空间设置只对好友开放)

    自己在网上搜了下,没有找到解决方案。求指点

    12 条回复    2015-05-14 15:46:50 +08:00
    Septembers
        1
    Septembers  
       2015-05-13 16:41:30 +08:00   ❤️ 3
    kchum
        2
    kchum  
       2015-05-13 17:02:04 +08:00 via iPhone   ❤️ 1
    楼上是思路…
    对于有些 Cookies 是 Javascript 生成的,可以用Selenium 免解析 Javascript.
    MasterYoda
        3
    MasterYoda  
       2015-05-13 17:21:21 +08:00
    楼上Selenium是思路。
    你也可以爬取页面后,试试phontomjs解析js。
    guoer
        4
    guoer  
       2015-05-13 17:53:45 +08:00   ❤️ 1
    http://taotao.qq.com/cgi-bin/emotion_cgi_msglist_v6
    这个地址直接返回说说数据的

    写过一个小脚本把所有说说给删了
    crab
        5
    crab  
       2015-05-13 17:55:49 +08:00
    qq空间有个g_tk参数,这个跟下有接口的。
    Septembers
        6
    Septembers  
       2015-05-13 17:58:59 +08:00
    @kchum @MasterYoda @guoer @crab
    see http://jeanphix.me/Ghost.py/
    不知道有用么?可以玩玩
    Lukin
        7
    Lukin  
       2015-05-13 19:29:14 +08:00 via iPhone
    别想了,爬多了直接封你账号
    LeoQ
        8
    LeoQ  
       2015-05-13 22:36:33 +08:00
    我想把我好友的说说全都点赞 以前看到过 https://github.com/atupal/3gqq , 不过后来好像没继续开发了
    imydou
        9
    imydou  
       2015-05-14 01:52:28 +08:00
    wap版本
    yanwen
        10
    yanwen  
       2015-05-14 14:35:19 +08:00
    @Septembers ls用的是什么软件??
    Septembers
        11
    Septembers  
       2015-05-14 14:41:50 +08:00 via Android   ❤️ 1
    hugleecool
        12
    hugleecool  
       2015-05-14 15:46:50 +08:00
    最简单的是爬wap版,3gqq。

    这是为了兼容使用老款手机的不开js的浏览器的用户而保留的页面。
    爬数据批量点赞什么的超级容易。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2706 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 14:48 · PVG 22:48 · LAX 06:48 · JFK 09:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.