1
ckzx 2018-12-30 09:45:24 +08:00 via Android
这个好像你不处理的锅啊,或者把限制调高点
|
2
wtks1 2018-12-30 09:45:48 +08:00 via Android
我这边只收数据库警报,一天怎么也得几十封吧
|
3
swulling 2018-12-30 09:48:18 +08:00 via iPhone
不处理不接收
|
4
corvofeng 2018-12-30 09:57:34 +08:00 via Android
几百的警报代码写的也太有问题了吧。 我这边 1 天也就几条; 出了问题,报警多的时候每分钟 1 条, 这样处理才有效啊
|
5
zhoudaiyu OP |
6
hugee 2018-12-30 10:30:52 +08:00 via Android 5
说明你的监控写得有问题,报警这么多等于没有报警。
|
7
annoy1309 2018-12-30 10:31:57 +08:00
那就是你们告警策略没做好
按你的描述 好多告警是前一分钟发了,后一分钟就恢复了,贼烦 那你们就应该设置阈值 比如服务连续不可用超过 3 分钟,告警 |
8
yidinghe 2018-12-30 10:34:08 +08:00 via Android
告警有两种,一种是阈值告警,比如内存使用超过 90%;一种是失败告警,比如某个事务回滚。对于很快可以恢复的情况,采用重试的方式处理,重试若干次失败再来告警。否则会产生大量的无效告警。楼主遇到的就是大量无效告警,使得告警机制没有正常发挥作用。
|
10
yidinghe 2018-12-30 10:37:17 +08:00 via Android
那要把底层的问题解决了。
|
11
CallMeReznov 2018-12-30 10:42:02 +08:00
我的 zabbix 都不设置报警.因为我所有爆炸的点都设置了自动脚本
zabbix 触发器一旦触发就自动运行.然后就等待 zabbix 的黄条变绿就好了 总部在我这里有部分对象存储服务器,因为开发的问题导致对象存储网关如果被写挂 让总部的人直接在服务器里写了个 RE 脚本完成后发邮件. 所以一天也就收几封~ |
12
swulling 2018-12-30 10:49:02 +08:00 via iPhone
@zhoudaiyu 嗯,所以是报警策略问题。像你这种,应该加一个持续时间的判定,持续超过 xx min 再报
|
13
CallMeReznov 2018-12-30 10:53:23 +08:00
想到 2 点
1.楼主得想办法优化报警信息,如楼上各位说的故障时间,阀值等 2.既然有 jenkins 肯定是有很多自动化任务了,那既然都是自动化任务了为什么还有那么多爆炸信息?那肯定得从优化自动化任务上面的事啊,执行就出错,我还要你自动化干嘛?我手动反而不更稳定? |
14
wtks1 2018-12-30 11:19:20 +08:00 via Android
@zhoudaiyu 其实大多数只是等待数量高,没办法做警告的不是我们的人,订的阈值不能改动,每次也就超出几个而且也就七点多那一会,就只能每天硬接这批短信了
|
15
binux 2018-12-30 11:28:46 +08:00 via Android
不需要人工处理的报警不要抱,人不看的日志不要打。
|
16
zhoudaiyu OP @CallMeReznov Jenkins 在我们这只是上线用,BUILD 的时候 Build 完了,Build 失败发邮件,几乎没有什么自动化的
|
17
zhoudaiyu OP @CallMeReznov 您敢相信我们这磁盘空间的问题都要人来干预吗?人去清日志什么的。只是 0 点的时候有个 gzip 的日志压缩脚本,但是还是有 N 多告警要自己处理。
|
19
zhoudaiyu OP @swulling FALCON 有连续超过阈值 n 次才会报警,CAT 的我不太清楚,因为不是我配的,但是应该也有类似得设置。然而即便是这样,也是疯狂报警。而且有些 Q 的和关键业务的业务告警必须马上发出来。感觉问题就是这个阈值是死的,要是有人工智能的技术能自动设置阈值就好了。
|
20
sunnyadamm 2018-12-30 14:02:27 +08:00 via Android
我。。。这里每天大概 160 万告警😂😂😂
|
22
zhoudaiyu OP |
23
gy911201 2018-12-30 14:31:33 +08:00
每天的报警邮件是 0
但是一旦有一封…………那就要干活咯… 你们每天几千封报警看的过来吗?会麻木的吧…… 真的有事故也会略过去的…… |
25
loveCoding 2018-12-30 15:59:11 +08:00
@sunnyadamm 牛牪犇逼
|
26
sunnyadamm 2018-12-30 16:52:40 +08:00 via Android
@zhoudaiyu 全省所有设备的告警,没办法,设备数量在那放着,少不了
|
27
defunct9 2018-12-30 20:45:35 +08:00 via iPhone
5000 多,忽略,假装看不到
|
28
akira 2018-12-30 21:38:36 +08:00
什么都告警等于没告警
|
29
sean328 2018-12-31 00:34:03 +08:00
我是开发,一天收到的光我们系统的数据库告警、日志告警、业务告警等加起来也都要上百条了,运维同事的话所有系统加起来怎么着也有一千条朝上了
|
30
dot2017 2018-12-31 01:48:57 +08:00
你们发短信的啊
有钱,我们只敢发邮件 |
31
zhoudaiyu OP |
32
javaluo 2018-12-31 12:40:16 +08:00 via Android
一个做产品的同事,有一次开发弄了一个脚本,没做好收了十几万 删了好几天
|