我司要做一个动态比价工具,须爬取大众点评 APP 及携程 web 的酒店价格。 数量大约为 500 家,每家 2 个指定房型,频率 3 分钟。
长期。
请“实测”成功联系我,不要没试过就说我可以。
1
d5 2019-03-23 07:24:33 +08:00 via iPhone
不是有大数据杀熟
|
2
d5 2019-03-23 07:25:46 +08:00 via iPhone 1
与其正面对刚,不如试试 airtest,用测试框架来抓取原生 app 元素内容
|
3
components 2019-03-23 07:40:25 +08:00 1
爬虫这种已经是法律边缘的东西了,慎入!
|
4
xiaoyazi OP 不知为不知
|
5
lhx2008 2019-03-23 07:54:36 +08:00 via Android
3 分钟一次,不好搞,而且 6k 一个月干啥也不清楚
|
6
yepinf 2019-03-23 08:02:19 +08:00 6
哈哈, 怕是公司 1-2w 招进去的的爬虫工程师,转手外包了 :doge
|
8
binux 2019-03-23 08:17:45 +08:00 4
给数据,不给代码,这个价格可以啊。
不然给了代码,下个月再招个 600 的维护一下就好了。 |
9
luozic 2019-03-23 08:35:05 +08:00 via iPhone
给数据不给代码,这种可以有
|
10
hahalo 2019-03-23 08:54:25 +08:00 via Android
给 api 接口不给代码,这种可以有
|
11
zuoakang 2019-03-23 09:13:05 +08:00 via Android
。都评论不接的吗
|
12
php01 2019-03-23 09:25:28 +08:00
别人公司这么大是有原因的,稍微一点手段,比价就得人肉了,比如说优惠券玩法
|
13
wangjinhui 2019-03-23 09:26:16 +08:00 via Android
@d5 对,这个最简单
|
16
ctro15547 2019-03-23 09:53:32 +08:00
之前玩过类似的,看了一下需求不清楚是指定酒店?,一次 1000 条,代理的钱报销吗(手动斜眼)
|
17
xiaoyazi OP @tabris17 我们自用的。如果在上海来公司看看就知道情况了。如果爬个几百家点评酒店价格也有法律风险,v 站多少人够进去了
|
19
justin2018 2019-03-23 10:01:32 +08:00
歪个楼 有高效 可靠的 代理推荐不 😁
|
20
q8164305 2019-03-23 10:13:00 +08:00 via Android
爬出来的东西不都是公司自己公布出来的数据,这也违法?
|
22
binux 2019-03-23 10:31:43 +08:00
@tabris17 #14 很简单,你和 LZ 签合同的时候加一句,你只是代理 LZ 行使数据获取行为,LZ 需要对数据的所有权和使用权负责。
|
24
airqj 2019-03-23 10:40:25 +08:00
3 分钟爬一次
到后面基本就得面对各种反爬措施了 |
27
binux 2019-03-23 10:54:54 +08:00 1
@airqj #24 反爬要做,但是最后还是靠代理。因为每月 3 千万的流量,傻子都能筛得出来,所以你至少需要有 30 万个 IP。比如 https://luminati.io/ 能提供 36M 个 IP,一个月大概要 12 万。
|
28
veike 2019-03-23 12:39:48 +08:00
爬虫真的法律边缘了吗?
|
29
liyaojian 2019-03-23 13:45:04 +08:00 via iPhone
慢慢买这类服务也是法律边缘吗?
|
30
gabon 2019-03-23 14:03:05 +08:00 via Android
哪家公司
|
31
belin520 2019-03-23 14:10:08 +08:00 via iPhone
给编译后的程序+使用说明,并且把程序做成看起来是有通用性的,这样这只是把菜刀,杀人砍肉就不关你事了
|
34
xiaoyazi OP 我们同时在招专职员工,boss 直聘上投应聘的有 60 多人了,无一能解。我突然在想程序爬 APP 数据靠的是破解,破解就是算法的对抗,反爬与爬虫对抗就是硬刚,如果要爬全站肯定要靠算法,但我们只是爬几百个酒店,与其正面对抗能不能模拟真人操作,买 100 台手机走 100 个进程取 100 个价格。 非技术人员,想法可能贻笑大方
|
35
binux 2019-03-23 22:34:16 +08:00 via Android
@xiaoyazi 问题是你要 3 分钟的频率,500*2 个房型*2 个网站,你自己算算。
爬全站反而简单点 |
36
xiaoyazi OP @binux 前两个月 200 个酒店差不多。增加服务器可以解决吗? 500 家酒店*2 个房型呀,不也就是 1000 个价格嘛。我不是很懂,请跟我说说
|
38
linhua 2019-03-23 23:26:06 +08:00
|
39
linhua 2019-03-23 23:41:19 +08:00
@binux 两个网站的流量要分开算,如果 ip 的安全频率是 5 分钟的话,那么 也只需要 500*2*( 5/3 (向上取整))=2000 个 ip
|
41
binux 2019-03-24 00:15:33 +08:00 via Android
@linhua 一个 IP 昼夜不停以 5 分钟间隔爬一个月?根本不靠谱好吧,除非你做好每过几天就换 2000 个 IP 的准备。
|
42
xiaoyazi OP @binux 补充下,不需要 24 小时,销售工作时间爬即可( 12 小时),也不是 500 个站点同时,200 个并发。
|
44
woshipanghu 2019-03-24 10:11:41 +08:00
前期做好 后期维护 6000 一个月 挺不错的
|
45
xiaoyazi OP @woshipanghu 可以签合同,保底一年
|
46
tangmi 2019-03-24 15:37:43 +08:00
楼主,我给你 telegram 发消息了
|
47
strpbrk 2019-03-24 17:32:08 +08:00
爬过点评,代码还在
|
49
szpShang 2019-03-25 09:27:40 +08:00
我有爬虫成套平台产品, 配置一下就能爬。公司有大量宽带账号,拨号换 ip 很轻松。私聊。
|
51
lusi1990 2019-03-29 13:09:58 +08:00 via Android
找到合适人选了吗 我晚上回去试试
|