V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
tooweakchen
V2EX  ›  Python

大家用 python 都做过什么有趣的爬虫吗?

  •  
  •   tooweakchen · 2015-09-10 19:31:03 +08:00 · 26016 次点击
    这是一个创建于 3360 天前的主题,其中的信息可能已经有所发展或是发生改变。

    大家用 python 都做过什么有趣的爬虫吗?分享分享呗!

    97 条回复    2018-09-24 18:42:28 +08:00
    Reed
        1
    Reed  
       2015-09-10 19:35:58 +08:00
    每天到 smzdm.com 上爬当天更新的便宜货算么?
    But ,买了几个之后,一点不有趣
    bdbai
        2
    bdbai  
       2015-09-10 19:43:55 +08:00 via iPhone
    爱鼠绘漫画 PHP 和 C#(跑
    anying
        3
    anying  
       2015-09-10 19:45:07 +08:00   ❤️ 1
    然而好多都是用来爬妹子图的
    uuspider
        4
    uuspider  
       2015-09-10 19:57:22 +08:00
    这是从知乎上看来的题目吧,知乎的答案还是比较丰富的。
    tooweakchen
        5
    tooweakchen  
    OP
       2015-09-10 20:46:24 +08:00
    @anying 我就是
    weifengzi2009
        6
    weifengzi2009  
       2015-09-10 20:49:56 +08:00   ❤️ 1
    爬过学校的课表,排课用
    tooweakchen
        7
    tooweakchen  
    OP
       2015-09-10 20:57:18 +08:00
    @weifengzi2009 有源码看看不
    giskard
        8
    giskard  
       2015-09-10 21:18:59 +08:00
    豆瓣租房小组,爬最新帖子,不算有趣吧,但还有点用。
    masol
        9
    masol  
       2015-09-10 21:49:58 +08:00
    爬过一个网站的所有图片。。
    qw7692336
        10
    qw7692336  
       2015-09-10 21:50:30 +08:00 via Android
    shoumu
        11
    shoumu  
       2015-09-10 21:57:53 +08:00
    这里的很多人都喜欢爬妹子图
    xunyu
        12
    xunyu  
       2015-09-10 22:07:12 +08:00 via Android
    爬猎聘, linkedin
    weifengzi2009
        13
    weifengzi2009  
       2015-09-11 00:23:14 +08:00
    @tooweakchen 有,你可以去看我的 github ,那个 repo 叫 NTUCoursePlanner 貌似

    我的 github 可以在我 v2 的个人资料页找到
    coldear
        14
    coldear  
       2015-09-11 01:25:26 +08:00
    爬过网络连载小说转成 txt 在 kindle 看。。
    爬过一个盗版技术书籍的网站。。
    dai269619118
        15
    dai269619118  
       2015-09-11 09:02:55 +08:00
    http://jinri.info 都是爬来的信息
    leyle
        16
    leyle  
       2015-09-11 09:05:14 +08:00 via Android
    喜欢看 1024 的技术区,但是没法按发帖时间排序,写了个抓取帖子回来再按发帖时间排。
    takashiki
        17
    takashiki  
       2015-09-11 09:23:30 +08:00
    豆瓣爬日剧动画啥的,然后按评分排序选择性补番
    paw
        18
    paw  
       2015-09-11 09:59:53 +08:00
    爬漫画,按卷爬好打包成 zip 放在本地 ComicsViewer 看。。。。。不喜欢在 web 上看漫画
    nicksite
        19
    nicksite  
       2015-09-11 10:05:14 +08:00
    礼物说的 专题和商品 小代码搞定。 https://github.com/henryluki/simpleparse/blob/master/liwushuo.py
    mckelvin
        20
    mckelvin  
       2015-09-11 10:16:18 +08:00 via iPhone   ❤️ 3
    爬 91porn 视频 :)
    leavic
        21
    leavic  
       2015-09-11 10:54:00 +08:00
    爬 javbus 上的 av 封面
    codeforlife
        22
    codeforlife  
       2015-09-11 11:04:16 +08:00
    我爬的一个 xx 论坛的某个专区,每次种子更新了自动下载。。
    sinosure
        23
    sinosure  
       2015-09-11 11:13:09 +08:00
    把感兴趣的公众号的当天更新爬到一个 feed 里面算么
    liaa
        24
    liaa  
       2015-09-11 11:20:45 +08:00
    @mckelvin so...Where is the code.
    ljdawn
        25
    ljdawn  
       2015-09-11 11:26:49 +08:00
    @liaa so...Where is the url.
    lxy
        26
    lxy  
       2015-09-11 11:36:30 +08:00
    爬某网站数据,做数据分析后发现一些不可告人的秘密,公布出来后成功引发一场论战……
    还有就是一些网站不慎泄露的用户数据,密码、邮箱之类的。
    imn1
        27
    imn1  
       2015-09-11 12:13:58 +08:00
    爬北都集团
    sun2920989
        28
    sun2920989  
       2015-09-11 13:54:36 +08:00
    PHP 简单写了个最简易的 爬美女图。。。。
    fish267
        29
    fish267  
       2015-09-11 14:06:56 +08:00
    codercai
        30
    codercai  
       2015-09-11 15:03:24 +08:00
    @mckelvin 哈哈哈,学以致用,求源码
    Aresn
        31
    Aresn  
       2015-09-11 15:43:39 +08:00
    第一次写爬虫,把一个竞聘的所有文章( 10 万+)全部爬来了,不知道这数据都是几手的了。。
    bullettrain1433
        32
    bullettrain1433  
       2015-09-11 15:56:40 +08:00
    @codeforlife 求共享
    iamnuomi
        33
    iamnuomi  
       2015-09-11 16:01:34 +08:00
    @sinosure 这是怎么做的?有代码吗?
    truehyp
        34
    truehyp  
       2015-09-11 16:08:56 +08:00
    爬过学校图书馆自己借阅过的书。噢,主要是为了可以无限续借书,顺带爬了书单。
    zhouquanbest
        35
    zhouquanbest  
       2015-09-11 16:17:30 +08:00
    1024 的算么
    fakir
        36
    fakir  
       2015-09-11 16:43:54 +08:00
    把拉钩,内推,IT 桔子上爬了二十万职位信息和五万多家公司信息, 结果发现拉钩数据存在造假呀
    BUPTGuo
        37
    BUPTGuo  
       2015-09-11 16:51:10 +08:00
    @sinosure 公众帐号怎么爬?源是哪?
    sinosure
        38
    sinosure  
       2015-09-11 17:12:08 +08:00
    idblife
        39
    idblife  
       2015-09-11 17:28:37 +08:00
    @mckelvin
    求代码
    idblife
        40
    idblife  
       2015-09-11 17:29:34 +08:00
    @fakir
    怎么造假了?另外我觉得拉钩很不靠谱
    rwecho
        41
    rwecho  
       2015-09-11 17:31:51 +08:00
    @zhouquanbest 求分享。
    z7039585
        42
    z7039585  
       2015-09-11 17:34:21 +08:00
    @giskard 握爪 我也写了个。 但是最终还是人工找到了合适的房子 0 0
    z7039585
        43
    z7039585  
       2015-09-11 17:36:06 +08:00
    @idblife 拉钩薪资大部分都是虚高 很多朋友都这样说 我之前也面了一家 实际薪资比拉钩上标的差了不少
    loryyang
        44
    loryyang  
       2015-09-11 17:51:56 +08:00
    挂个 VPN 爬妹子图。。。后来觉得太蠢了,废弃了
    ma7x
        45
    ma7x  
       2015-09-11 17:58:18 +08:00
    试过爬一个填单类型的网站 想做的功能是 填写表单 后来没弄出来 改用 chrome 插件了
    xmmak
        46
    xmmak  
       2015-09-11 18:00:23 +08:00
    爬了 Google Play
    codeforlife
        47
    codeforlife  
       2015-09-11 18:10:37 +08:00
    @bullettrain1433 https://github.com/winniesi/getsis 昨晚临下班写的。。很乱凑活着看
    jseanj
        48
    jseanj  
       2015-09-11 18:11:25 +08:00
    爬 v2 所有用户的 blog 地址
    jseanj
        49
    jseanj  
       2015-09-11 18:12:45 +08:00
    @mckelvin 这个牛逼,贡献下源码?哈哈
    weiyefly
        50
    weiyefly  
       2015-09-11 18:20:54 +08:00
    @xmmak 做游戏植入?
    laoyuan
        51
    laoyuan  
       2015-09-11 18:40:43 +08:00
    山东大学自习室空堂表,包括我常去的千佛山校区 9 号楼、兴隆山校区讲学堂和教学楼
    http://d9book.com/sdu/
    androidwdmzzc
        52
    androidwdmzzc  
       2015-09-11 19:12:44 +08:00
    @Reed 哈哈! 我觉得这个爬虫,只会让 LZ 更想剁手
    MrGba2z
        53
    MrGba2z  
       2015-09-11 21:01:46 +08:00
    @mckelvin
    交出爬 91 的源码我们还能做网友!
    yield9tk
        54
    yield9tk  
       2015-09-11 21:07:36 +08:00
    抓取电影天堂的电影下载链接
    LancerComet
        55
    LancerComet  
       2015-09-11 21:21:26 +08:00
    不会 Python ,不过 Node 入门时用 Node 写了个爬华盟、极影、动漫花园和漫游资源站的爬虫,自己下资源用,页面用 Angular + Material-Angular 搭的,请脑补感受一下连指令都不会写、一股脑控制器的入门代码,一直想改掉,不过刚看一眼就没动力了…
    lenran
        56
    lenran  
       2015-09-11 21:28:20 +08:00
    @MrGba2z 搜了下'91porn',你们也太重口了%>_<%
    bullettrain1433
        57
    bullettrain1433  
       2015-09-11 21:30:53 +08:00
    @codeforlife 感谢
    pmispig
        58
    pmispig  
       2015-09-12 00:07:37 +08:00
    爬了 2 新浪美女图 3W 张,豆瓣美腿大赛 2000 张。
    给豆瓣友邻点赞,小伙伴一觉起来发现多了几千个赞,吓哭了~
    JensenChen
        59
    JensenChen  
       2015-09-12 00:17:08 +08:00
    @laoyuan 你这个是抓全校全周的课表,然后对教室进行的分析??
    nikoukou
        60
    nikoukou  
       2015-09-12 02:08:08 +08:00
    @laoyuan 千佛山九号楼是雅思楼。。。
    wd0g
        61
    wd0g  
       2015-09-12 03:20:10 +08:00   ❤️ 1
    爬了 1024 所有的账户,然并卵还是没扫到能登录的
    monkeylyf
        62
    monkeylyf  
       2015-09-12 04:06:15 +08:00
    @mckelvin 求代码
    laoyuan
        63
    laoyuan  
       2015-09-12 05:06:45 +08:00
    @JensenChen 是的,按教室弄到一块就行了。
    @nikoukou 今天就有雅思考试,只能去一楼,但是一楼的桌椅质量不好年岁太长有气味!!
    WhiteSaber
        64
    WhiteSaber  
       2015-09-12 08:44:51 +08:00
    @codeforlife 相当有趣,之前想做一个 js 插件来着,他排版和搜索好差
    bigzhu
        65
    bigzhu  
       2015-09-12 09:35:58 +08:00
    我做了自已用的 http://follow.center/ 算不算?
    整了 github instagram twitter tumblr 的东西进来,准确的说应该是调用 api ,不算爬虫
    不过如果想整合国内的微博、知乎这些封闭型的,估计只能上爬虫了
    Felldeadbird
        66
    Felldeadbird  
       2015-09-12 09:42:25 +08:00 via iPhone
    我把 9 个目标网站所有连接都爬了,然后在抓里面的价格…到只爬了 2KW 条记录时,我放弃了。这样爬没效率。
    bbking
        67
    bbking  
       2015-09-12 12:27:59 +08:00
    爬 58
    alexapollo
        68
    alexapollo  
       2015-09-12 12:32:28 +08:00
    前两年写的少儿不宜爬虫。。 https://github.com/geekan/insane_crawler
    luago
        69
    luago  
       2015-09-12 16:25:43 +08:00
    我想知道上面爬图的朋友,图片后来怎么处理了 :)
    ljbha007
        70
    ljbha007  
       2015-09-12 17:02:54 +08:00
    爬学校同学的证件照片、学号、班级、课表 爬了 2000 多个
    但是胆子比较小 爬完就删了(主要是没有爬到好看的妹子)
    davidlau
        71
    davidlau  
       2015-09-12 17:07:40 +08:00
    爬新浪微博,做关系链分析

    https://github.com/liuslevis/weiquncrawler/
    sohoer
        72
    sohoer  
       2015-09-12 18:06:36 +08:00
    http://www.shishibi.com/

    大数据抓取、搜索排序优化、聚类、性价比计算、一个人完成真心累
    csx163
        73
    csx163  
       2015-09-12 18:49:18 +08:00
    爬种子,发行并没什么*用
    csx163
        74
    csx163  
       2015-09-12 18:49:25 +08:00
    爬种子,发现并没什么*用
    ultimate010
        75
    ultimate010  
       2015-09-12 19:21:28 +08:00
    实习时候用 20+台屌丝云服务器,分布式爬过上亿条淘宝数据,如 http://t.ultimate010.tk:18080/taobao.php 带宽够牛逼,曾经测试跑满 1G 带宽,爽
    vivalon
        76
    vivalon  
       2015-09-12 19:23:41 +08:00
    撸过下厨房的菜单
    giuem
        77
    giuem  
       2015-09-12 19:44:10 +08:00 via Android
    @ultimate010 这数据占多少存储空间
    Moker
        78
    Moker  
       2015-09-12 21:23:34 +08:00
    @ljbha007 这些数据应该不是公开的吧 怎么找到入口的
    ljbha007
        79
    ljbha007  
       2015-09-12 21:43:16 +08:00
    @Moker 只是没有链接而已 自己构造 URL 可以进去
    Earthman
        80
    Earthman  
       2015-09-12 22:02:21 +08:00
    @davidlau 某是不是看过你的毕设演讲啊
    break
        81
    break  
       2015-09-13 09:25:43 +08:00   ❤️ 1
    @bigzhu 报个 bug , profile 页面顶部用户名
    bigzhu
        82
    bigzhu  
       2015-09-13 10:02:11 +08:00
    @break 感谢感谢,最近在大改,很多 bug 来不及测试
    erik0
        83
    erik0  
       2015-09-13 11:08:30 +08:00
    太可怕了,这么多爬虫,起了一身鸡皮疙瘩~~
    davidlau
        84
    davidlau  
       2015-09-13 12:10:19 +08:00
    @Earthman 13' BJUT ?
    lxx1
        85
    lxx1  
       2015-09-13 12:23:19 +08:00 via Android
    @ljbha007

    爬完才发现,证件照实在是太丑了。
    ultimate010
        86
    ultimate010  
       2015-09-13 18:41:52 +08:00 via Android
    @giuem 压缩了很少,倒入 mysql 后好像几十 G, 可接受.
    HavenShen
        87
    HavenShen  
       2015-09-14 11:14:25 +08:00
    爬过携程旅游网。
    v2nu
        88
    v2nu  
       2015-09-14 12:43:35 +08:00
    @dai269619118 看起来不错呀
    dai269619118
        89
    dai269619118  
       2015-09-14 15:20:44 +08:00
    @v2nu 嘿嘿
    onlyxuyang
        90
    onlyxuyang  
       2015-09-15 20:32:00 +08:00 via Android
    爬 beautyleg ……爬绅士漫画……
    lzs5240
        91
    lzs5240  
       2015-09-25 17:41:35 +08:00
    @mckelvin 潜水多年特来要源码 ~
    leetao102
        92
    leetao102  
       2015-09-30 00:41:25 +08:00
    @codeforlife 不错。。。
    lazyboy
        93
    lazyboy  
       2015-10-04 11:49:47 +08:00
    @leyle 。。。我是根据浏览量从大到小排序看
    ns2250225
        94
    ns2250225  
       2015-10-15 17:16:34 +08:00
    爬过多玩的搞笑 gif 图库
    yongjiu236z
        95
    yongjiu236z  
       2016-12-11 01:05:06 +08:00
    @xmmak
    @mckelvin
    @Felldeadbird
    +Q2602560384
    yongjiu236z
        96
    yongjiu236z  
       2016-12-15 00:57:34 +08:00
    @lxy
    @imn1
    +2602560384
    ntuwang
        97
    ntuwang  
       2018-09-24 18:42:28 +08:00
    mark
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1003 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 22:19 · PVG 06:19 · LAX 14:19 · JFK 17:19
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.