V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
binux
V2EX  ›  分享创造

也来一发,豆瓣害羞组读图版

  •  4
     
  •   binux ·
    binux · 2014-10-26 21:16:15 +08:00 · 25753 次点击
    这是一个创建于 3678 天前的主题,其中的信息可能已经有所发展或是发生改变。

    看到有人专名写一个爬虫,于是用手上的东西,做了一个这个东西。
    先直接上地址: https://f.binux.me/haixiuzu.html

    pyspider DEMO版 + 多说 做数据库 + 前端渲染一个瀑布流

    嘿,还真像那么回事有没有。

    那么问题来了,还有哪些免费的 KV 数据库,有 HTTP API 的,能公开读取数据的。
    多说老是转义导入的数据。。

    44 条回复    2018-12-04 07:18:38 +08:00
    oojiayu
        1
    oojiayu  
       2014-10-26 21:44:01 +08:00
    赞一个
    ihacku
        2
    ihacku  
       2014-10-26 22:03:00 +08:00
    CouchDB?
    ChiangDi
        3
    ChiangDi  
       2014-10-26 22:08:39 +08:00
    豆瓣好奇怪,为什么那么多妹纸晒。。
    can
        4
    can  
       2014-10-26 22:09:33 +08:00
    不是说晚上管理员一下班,这组就……?
    binux
        5
    binux  
    OP
       2014-10-26 22:11:20 +08:00
    @ihacku 不想要自己搭啊
    Shared
        6
    Shared  
       2014-10-26 22:15:19 +08:00
    为什么有css和js文件不能加载,主页裸奔了
    jprovim
        7
    jprovim  
       2014-10-26 22:37:20 +08:00   ❤️ 2
    Firebase, 剛剛被google收購. @binux
    shoumu
        8
    shoumu  
       2014-10-26 22:38:30 +08:00
    看不到图啊
    binux
        9
    binux  
    OP
       2014-10-26 22:40:54 +08:00
    @Shared 反正我就是单文件,加载的CDN,打不开找又拍云
    @shoumu 你用 https 了吗
    shoumu
        10
    shoumu  
       2014-10-26 22:42:49 +08:00
    @binux 直接点的你给的那个地址
    shoumu
        11
    shoumu  
       2014-10-26 22:43:30 +08:00   ❤️ 1
    @binux
    控制台信息

    Failed to load resource: net::ERR_SSL_VERSION_OR_CIPHER_MISMATCH https://static.duoshuo.com/embed.unstable.js
    Uncaught ReferenceError: DUOSHUO is not defined haixiuzu.html:62
    douban
    binux
        12
    binux  
    OP
       2014-10-26 22:45:54 +08:00
    @shoumu 你浏览器的问题
    shakoon
        13
    shakoon  
       2014-10-26 22:47:02 +08:00
    不能翻页&说好的瀑布流呢?是因为采集数据还太少么
    flyphy
        14
    flyphy  
       2014-10-26 22:48:29 +08:00   ❤️ 1
    试试撸女神
    http://lunvshen.com
    binux
        15
    binux  
    OP
       2014-10-26 22:58:03 +08:00
    @shakoon 是兼容性bug吧,chrome是没问题的
    kmvan
        16
    kmvan  
       2014-10-26 23:21:36 +08:00
    是啥语言采集的?
    binux
        17
    binux  
    OP
       2014-10-26 23:25:56 +08:00
    gipsymoth
        18
    gipsymoth  
       2014-10-27 09:18:42 +08:00
    这个好
    muziyue
        19
    muziyue  
       2014-10-27 09:51:33 +08:00
    有没有能判断性别的图像处理方案……
    jacob
        20
    jacob  
       2014-10-27 17:24:55 +08:00
    害羞组是啥玩意,这些图看得我都害羞了- -
    lubuwei
        21
    lubuwei  
       2014-10-27 18:21:22 +08:00
    呃,下班再打开看看......
    shakespark
        22
    shakespark  
       2014-10-29 08:50:05 +08:00
    为啥里面还有丁丁...
    shakespark
        23
    shakespark  
       2014-10-29 08:54:14 +08:00
    理解了...各种晒10分钟的图被lz抓取了啊哈哈哈
    hydyy
        24
    hydyy  
       2014-10-29 09:31:21 +08:00
    。。。
    chilaoqi
        25
    chilaoqi  
       2014-10-29 10:42:58 +08:00
    这么多丁丁 大丈夫?
    binux
        26
    binux  
    OP
       2014-10-29 10:47:11 +08:00
    @chilaoqi 别人要发,而且不是发我这,数据也不存我这。。我有什么办法。。
    axe
        27
    axe  
       2014-10-29 15:29:25 +08:00
    害羞组是用来约约约的吗。。
    yangkeao
        28
    yangkeao  
       2014-10-29 17:34:45 +08:00
    我想知道多说做数据库是什么情况。。
    binux
        29
    binux  
    OP
       2014-10-29 18:46:42 +08:00
    @yangkeao 抓到一条数据之后,往多说上发一条评论,评论内容就是抓到数据。
    然后页面取最新评论就行了。
    gkuchan
        30
    gkuchan  
       2014-10-29 19:17:27 +08:00
    …… 能不能把女人删掉 搞一个只有男人的版本……
    Qulyf
        31
    Qulyf  
       2014-10-30 17:25:31 +08:00
    @gkuchan ←← 好像暴露了什么...
    alsotang
        32
    alsotang  
       2014-11-01 20:52:13 +08:00
    碉堡了
    2232588429
        33
    2232588429  
       2014-11-02 00:49:20 +08:00
    这个数据库是采到26号的?上限怎么定的?
    binux
        34
    binux  
    OP
       2014-11-02 00:55:21 +08:00
    @2232588429 我只采集了第一页,我是从26号开始采集的。
    wh1100717
        35
    wh1100717  
       2014-11-20 22:33:20 +08:00   ❤️ 1
    其实你这个还可以加以下功能:
    1. 定时check你抓下来的帖子是否删除,如果删除,则高亮显示(原因你懂的)
    2. 想办法用算法把广告过滤掉...
    3. 增加手动点击发豆油功能(原因你懂的)
    4. 增加几个组一起check好了==!

    我也写了个一个类似的东西...不过写完就觉得无趣懒得完善了,哈哈
    binux
        36
    binux  
    OP
       2014-11-20 22:39:28 +08:00
    @wh1100717 我就试试我的爬虫,一个晚上做的,我也懒得完善
    mnhkahn
        37
    mnhkahn  
       2015-02-25 08:50:41 +08:00
    大哥,你这个有些图多说那边没给你处理么?
    binux
        38
    binux  
    OP
       2015-02-25 17:57:21 +08:00 via Android
    @mnhkahn 处理什么
    lukew
        39
    lukew  
       2016-01-15 14:03:34 +08:00
    @binux
    好项目 最近需要搭建一个爬虫系统 果断上手!
    想问下 这个项目还是活的吧?
    binux
        40
    binux  
    OP
       2016-01-15 18:25:15 +08:00
    @lukew 没死
    lukew
        41
    lukew  
       2016-01-18 18:25:55 +08:00
    @binux 关于网站或者 app 的登录貌似文档中没有具体的描述
    能否加个微信?
    lukew
        42
    lukew  
       2016-01-19 11:05:42 +08:00
    @binux 如果要抓去 app 客户端,纯 http 的 api 接口,需要 https 的支持,登录这些操作
    是否合适用 pyspider ?
    binux
        43
    binux  
    OP
       2016-01-19 19:23:38 +08:00
    @lukew 没有跨任务会话管理, 需要你手动管理 cookie 保持登陆.
    zkeeper
        44
    zkeeper  
       2018-12-04 07:18:38 +08:00
    妈的来晚了, 啥都看不见
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3200 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 12:16 · PVG 20:16 · LAX 04:16 · JFK 07:16
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.