把需求里 最核心的两个技术性的难点问题再说明一下
对性能(实时性)有非常高的要求, 抓取到的新闻 最多 1s 内的延迟
再就是部分抓取网站有 websocket 的接口推送新闻的,这个需要搞定
能够解决上面两个问题的联系我,最好是有实际相关项目经验的
开发费用 1w,维护费用 5k/年,服务器硬件还有代理部分预算支出在 2w/年 ,
爬取网站 10 个左右,爬取时间一天 6 小时
联系方式 球球:196063
1
airyland 2019-05-28 09:54:17 +08:00
1s 延迟,先说能不能达到这个延迟,你考虑过人家网站的感受么。
|
2
tikazyq 2019-05-28 09:56:53 +08:00
这种实时性要求高的爬虫需要对网页进行秒级监控,这个有些难度,可以用 polling 来搞。websocket 爬虫我认识一个大牛,可以 wx 我 tikazyq1
顺便打个广告,Crawlab 是一个专注于爬虫的集成了爬虫管理、任务调度、任务监控、数据分析等模块的分布式爬虫管理平台,非常适合对爬虫管理、爬虫工程化有要求的开发者及企业 // github.com /tikazyq/crawlab |
4
explorerEX 2019-05-28 10:01:05 +08:00
应该是金融类的产品吧,响应可以在这范围内,稳定性不一定能达到
|
5
Moker 2019-05-28 10:01:24 +08:00
什么类型的网站?
|
6
lekai63 2019-05-28 10:02:27 +08:00 via iPhone
1 天 6 小时
估计是爬 gov 网站 基于舆情作交易吗 |
7
Taeye9n 2019-05-28 10:03:41 +08:00 1
2w/a 买代理都不够的吧
|
8
airyland 2019-05-28 10:07:41 +08:00 1
@zinfinb 不会挂不意味着这样频率的请求是合理的,大部分在爬的人估计都是这么想的。你考虑的是反正人家不会挂,而站方必须增加更多额外人力资源成本来应对爬虫。
|
10
dryadent 2019-05-28 10:16:08 +08:00 1
我觉得这个的主要难点在于 1s 之内响应,对应的就是反爬策略的更新和代理的稳定性,我觉得 2w 付代理确实有难度
|
11
davie 2019-05-28 10:16:19 +08:00 1
这个要求有点疯狂啊
|
12
fate 2019-05-28 10:16:27 +08:00
自己做新闻源?
|
13
native 2019-05-28 10:17:11 +08:00
爬取时间一天 6 小时 ,如何做到实时?只有 6 个小时实时。
|
15
dryadent 2019-05-28 10:20:55 +08:00
@zinfinb 对,我觉得代理这部分可以看着来,一般的网站即使把 ip 封了也不会一直封禁,有一个静默期,用代理池一直更新就好了,主要是测试到准确的静默期边界存在困难
|
16
lesterchen 2019-05-28 10:22:50 +08:00
不会被计算机犯罪么~
|
17
jpacg 2019-05-28 10:29:51 +08:00 1
这个确实很危险,算计算机犯罪了,赚白菜的钱,操白粉的心。
|
18
Constellation39 2019-05-28 10:32:31 +08:00
监狱里面找 /狗头 /
|
19
murmur 2019-05-28 10:35:56 +08:00
1s 延迟你要把别人网站爬炸
|
20
dongya 2019-05-28 10:36:36 +08:00 1
洗洗睡吧
|
21
zuoakang 2019-05-28 10:36:46 +08:00 via Android
白菜价
|
22
liwl 2019-05-28 10:41:48 +08:00
话说,多加几台机器,轮流跑 可以么 比如 5 台 5s 一次 每台之间间隔 1s 加钱可达?
|
23
locoz 2019-05-28 10:51:47 +08:00 1
这需求没法做的,“最多 1s 内的延迟”这一点,技术层面都不一定所有网站可行,道德层面问题就更大了。。
1s 内的延迟意味着你需要至少 0.5 秒刷新一次,对于一些比较菜的网站来说就是 DDOS 了,虽然可能不会当场爆炸但也会压力山大;如果人家挂了付费 CDN 的话即使全部打在缓存上、对服务器本身没有压力,也还是会有流量费的问题。 |
24
onepunch 2019-05-28 11:44:40 +08:00
这个需求很简单,怎么实现我不管 ,dog
|
25
zzcworld 2019-05-28 11:50:34 +08:00 1
你可以跟这些网站合作拿信息,不过费用就不只两万了。
我以前写过一个 proxy,可以把这个软件接受的所有信息转发,延迟在 0.1s 以内。 频繁刷新不可取,websocksets 还可以 |
26
chol 2019-05-28 12:34:34 +08:00 via iPhone
可以做啊,预算加个 0
|
27
ensonmj 2019-05-28 13:13:38 +08:00 1
1s 延迟,这个需求估计是拍脑袋拍出来的
|
28
rocketman13 2019-05-28 13:15:10 +08:00
费用感人。。
|
29
zinfinb OP @zzcworld 多谢你的建议, 有一些细节我想请教一下,是否方便发我你的联系方式? 我现在考虑把重要的按你说的 proxy 的方式来做, 有 websocket 替代的尽量用这个。其他不重要的 刷取间隔时间调长一些
|
30
lasuar 2019-05-28 14:16:58 +08:00
既然是找别人做,就不要想着投机套方案,之前 V 站也有这种人,最后在这里不敢发言了。
|
31
luozic 2019-05-28 14:20:03 +08:00 via iPhone
😄,ip 代理费
|
32
demoxu 2019-05-28 17:12:50 +08:00
|
33
demoxu 2019-05-28 17:13:51 +08:00
首先不说开发费用,5k/年的维护费用平均 400/月?
|
34
lifeintools 2019-05-28 17:18:06 +08:00
这个价格 招实习生 差不多
|
35
Navee 2019-05-28 17:43:45 +08:00
1s 延迟,单页面日最少请求=3600*24=86400,平均一个代理请求 1000 次,得至少 86 个代理轮换
|
36
mzdblsw8 2019-05-29 02:43:06 +08:00 via iPhone
有没有想过。一年维护费才 5000。
网站改一下策略。又要改代码。一个月才 400。那个大牛这么便宜? |