V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
8bits
V2EX  ›  分享创造

Spiderless - 一个基于 AWS Lambda 的"即点即爬"爬虫应用

  •  
  •   8bits · 2018-12-15 10:28:10 +08:00 · 6155 次点击
    这是一个创建于 2199 天前的主题,其中的信息可能已经有所发展或是发生改变。

    网站跑在 AWS S3 上面不知道能否访问: https://kmppp.com

    技术栈介绍和价值一个亿的核心代码开源在: https://github.com/slashbit/spider-less

    至于功能,动图走起!

    spiderless.gif

    第 1 条附言  ·  2018-12-16 16:12:12 +08:00

    附上架构图 Serverless Application Architecture (1).png

    24 条回复    2019-02-20 22:06:42 +08:00
    rayhy
        1
    rayhy  
       2018-12-15 10:41:59 +08:00
    弱弱地问一下楼主有没有试过用国内的云服务商提供的类似功能(比如腾讯云的云函数)来做这件事情?
    d5
        2
    d5  
       2018-12-15 11:00:32 +08:00 via iPhone
    支持
    rayingecho
        3
    rayingecho  
       2018-12-15 11:09:29 +08:00
    思路很棒,已 star
    8bits
        4
    8bits  
    OP
       2018-12-15 11:23:24 +08:00
    @rayhy 目前还没有用过国内的 Serverless 服务,如果有机会做小程序开发的话,倒还真想体验下腾讯云函数
    abmin521
        5
    abmin521  
       2018-12-15 12:08:55 +08:00 via Android
    量大的话需要 MQ 吧
    isCyan
        6
    isCyan  
       2018-12-15 12:54:33 +08:00
    AWS 全家桶实战,支持一个
    8bits
        7
    8bits  
    OP
       2018-12-15 13:12:17 +08:00
    @abmin521 Message Queue 吗?嗯,可以用 AWS 的 SQS ( Simple Queue Service ),cron 函数将需要爬的任务筛选出来后,将消息扔到队列中,scrape 函数由队列消息触发
    Senventise
        8
    Senventise  
       2018-12-15 14:20:13 +08:00 via Android
    建议防一下滥用,貌似可以访问墙外地址
    miao
        9
    miao  
       2018-12-15 14:21:01 +08:00
    只能爬文字?
    8bits
        10
    8bits  
    OP
       2018-12-15 14:49:46 +08:00
    @Senventise 的确哈,因为爬虫访问“外网”是不受限制的...
    8bits
        11
    8bits  
    OP
       2018-12-15 14:50:57 +08:00
    @miao 嗯,目前只支持静态网页,在 AWS Lambda 上用 puppeteer 比较费劲
    binarymann
        12
    binarymann  
       2018-12-15 17:52:32 +08:00
    不错不错,正好学习下 serverless
    8bits
        13
    8bits  
    OP
       2018-12-15 19:16:06 +08:00
    @d5
    @rayingecho
    @isCyan
    @binarymann
    谢谢支持!😊
    tedd
        14
    tedd  
       2018-12-15 21:36:26 +08:00
    已订阅了个站的更新,谢谢分享🙏
    bbmmwan886
        15
    bbmmwan886  
       2018-12-16 04:47:07 +08:00 via Android
    貌似面向国外的 不知道会不会更新中文的 英文用起来还是不太习惯😅😅😅
    8bits
        16
    8bits  
    OP
       2018-12-16 09:06:13 +08:00
    @bbmmwan886 操作很简单啦 😊
    landi
        17
    landi  
       2018-12-17 15:02:44 +08:00
    网站很漂亮啊,ui 是自己设计的吗。。。
    8bits
        18
    8bits  
    OP
       2018-12-17 15:17:09 +08:00
    @landi 谢谢,嗯 😊
    dezhou9
        19
    dezhou9  
       2018-12-17 17:44:45 +08:00 via Android
    有点简单啊,高中生水平,朋友。已 star
    evanvane
        20
    evanvane  
       2018-12-18 07:44:24 +08:00 via Android
    请问下,第二张图是怎么生成的?
    8bits
        21
    8bits  
    OP
       2018-12-18 09:21:28 +08:00
    @dezhou9 谢谢支持 😊嗯嗯主要展示一个完整的 Serverless 应用案例。
    8bits
        22
    8bits  
    OP
       2018-12-18 09:22:26 +08:00
    @evanvane 在这里画的: https://cloudcraft.co/
    dezhou9
        23
    dezhou9  
       2018-12-18 10:19:40 +08:00 via Android
    @8bits 我的发展建议是做一个可编程的信息流网站,根据不同的 parser,以从右向左的方式滚动
    evanvane
        24
    evanvane  
       2019-02-20 22:06:42 +08:00
    @8bits 多谢
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2829 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 12:16 · PVG 20:16 · LAX 04:16 · JFK 07:16
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.