网站跑在 AWS S3 上面不知道能否访问: https://kmppp.com
技术栈介绍和价值一个亿的核心代码开源在: https://github.com/slashbit/spider-less
至于功能,动图走起!
附上架构图
1
rayhy 2018-12-15 10:41:59 +08:00
弱弱地问一下楼主有没有试过用国内的云服务商提供的类似功能(比如腾讯云的云函数)来做这件事情?
|
2
d5 2018-12-15 11:00:32 +08:00 via iPhone
支持
|
3
rayingecho 2018-12-15 11:09:29 +08:00
思路很棒,已 star
|
5
abmin521 2018-12-15 12:08:55 +08:00 via Android
量大的话需要 MQ 吧
|
6
isCyan 2018-12-15 12:54:33 +08:00
AWS 全家桶实战,支持一个
|
7
8bits OP @abmin521 Message Queue 吗?嗯,可以用 AWS 的 SQS ( Simple Queue Service ),cron 函数将需要爬的任务筛选出来后,将消息扔到队列中,scrape 函数由队列消息触发
|
8
Senventise 2018-12-15 14:20:13 +08:00 via Android
建议防一下滥用,貌似可以访问墙外地址
|
9
miao 2018-12-15 14:21:01 +08:00
只能爬文字?
|
10
8bits OP @Senventise 的确哈,因为爬虫访问“外网”是不受限制的...
|
12
binarymann 2018-12-15 17:52:32 +08:00
不错不错,正好学习下 serverless
|
13
8bits OP |
14
tedd 2018-12-15 21:36:26 +08:00
已订阅了个站的更新,谢谢分享🙏
|
15
bbmmwan886 2018-12-16 04:47:07 +08:00 via Android
貌似面向国外的 不知道会不会更新中文的 英文用起来还是不太习惯😅😅😅
|
16
8bits OP @bbmmwan886 操作很简单啦 😊
|
17
landi 2018-12-17 15:02:44 +08:00
网站很漂亮啊,ui 是自己设计的吗。。。
|
19
dezhou9 2018-12-17 17:44:45 +08:00 via Android
有点简单啊,高中生水平,朋友。已 star
|
20
evanvane 2018-12-18 07:44:24 +08:00 via Android
请问下,第二张图是怎么生成的?
|
22
8bits OP @evanvane 在这里画的: https://cloudcraft.co/
|