项目在这儿: https://github.com/leishi1313/serverless-web-differ
主要用途就是可以在云端有个无头浏览器不断地帮你查看你想查看的页面,一旦发现有不同,可以通过 Email,Server 酱之类的发送通知。因为是 serverless 的,所以可以很省心,不用担心服务下线(其实我就是想这么玩玩看)。
技术上主要基于Serverless&AWS Lambda,还有就是 Selenium。所以本身就禁 Selenium 的几个网站:淘宝、知乎、大众点评等等还是爬不了(或者说要多费点手段),反正我的需求只要能够爬老婆的几个卖衣服网站就 OK,所以就先这样了。感兴趣的可以配置一下玩玩看
过两天再做个 docker image,更通用一些
1
greatghoul 2020-01-15 17:30:52 +08:00
真的有老婆吗?
|
2
precisi0nux 2020-01-15 18:53:35 +08:00 via iPhone
灰机杯好评
|
3
pcbl 2020-01-15 18:54:53 +08:00 via Android
不从淘宝买衣服的老婆不是好老婆
|
4
SquirrelMAN 2020-01-15 18:58:13 +08:00
最近正好有类似需求 支持
|
5
JCZ2MkKb5S8ZX9pq 2020-01-15 19:04:57 +08:00
请问 selenium 现在可以突破 taobao 了嘛?
之前不会加 header 被识别过,后来也没再试过。 |
6
JCZ2MkKb5S8ZX9pq 2020-01-15 19:06:28 +08:00
汗,刚看到详情了,打扰了。
非淘宝的话直接 requests 更轻吧 |
7
controller 2020-01-15 23:37:33 +08:00 via Android
散了散了,要老婆的。
|
8
leishi1313 OP @JCZ2MkKb5S8ZX9pq 大部分购物网站光 requests 是不行的。再说靠 selenium 的话可以直接访问网页通过 xpath 得到价格,用 requests 还得一个个费劲地找价格对应的 API 是什么。理想状态下加监控的网站只需要修改配置文件然后重新 deploy 就可以了,代码都不需要改
|
9
leishi1313 OP |
10
haozes 2020-01-16 09:23:44 +08:00
puppeteer 他们能防得住么?
|
11
leishi1313 OP @haozes 能的,只要想防什么都能。
|
13
pincoudeduanyin 2020-01-16 16:22:12 +08:00
啥意思,这个有什么用处,不太懂...
|
14
leishi1313 OP @pincoudeduanyin 看不懂就是用不上,点个星星就好👌
|
15
ohoh 2020-01-17 09:45:15 +08:00
我记得有个 chrome 插件干这个的, 相当强大, 功能也超多, 但是
我 不记得也找不到这插件叫啥了 |
16
imdoge 2020-01-17 19:20:47 +08:00
@leishi1313 淘宝没试过,知乎试过,防不住的,无非是正确的 ua,http 头,还有 webdriver 等字段
|