最近有用户反馈网站不可用,登录后台是发现硬盘读流量暴增到十几万 kb 每秒,可以 ping 的通但是 ssh 无法链接网站无法访问,最终我重启后可以正常使用,之后提交工单客服说已经解决?实际并没有
奇妙的是服务器不可用期间腾讯云并没有任何形式的通知(站内信 短信 微信等),之后我添加了阿里云的站点监控,这几天基本上每天都会有几十分钟的宕机时间,必须重启服务器才能恢复正常。
上次联系客服问了一下赔偿问题,腾讯云官方说可使用率为 99.95%也就是每个月有 21 分钟的不可用时间,但是光昨晚就有 25 分钟的不可用时间……
今天早上又出现问题了,持续了十几分钟,我重启后恢复正常,刚刚提交了工单,看他们怎么说…
服务器配置:香港二区 4 核 8GB 5Mbps 系统盘:高性能云硬盘 标准型 S2 centos7
P1 最近 24 小时硬盘读流量峰值
P2.服务器实时监控
P3. 上次提交的工单信息
破案了,锅是我的,辛苦技术帮忙调查了,是因为触发oom了,我某个python脚本的问题,没有做好pid判断以及异常处理,导致corntab一直调起python进程,最多时候系统内有300多个python3进程,将内存资源耗尽并导致其它进程被kill……
触发oom时间点附近会伴随着磁盘读流量的增大,目前的怀疑是,系统在oom的发现前会把一些文件的page cache清理掉,这样下次io操作如果读到这些文件就需要从磁盘来读了,这会导致磁盘读流量在短时间内突增。
不是腾讯云的锅,确实是我的问题,这次也要反思一下,以后遇到问题还是自己再好好看看日志做做调查才行;同时感谢楼层里帮忙出主意的各位。
1
asilin 2020-03-24 11:02:07 +08:00
磁盘 IO 被打满了而已
|
3
mnssbe 2020-03-24 11:26:54 +08:00
自己查不了原因么
|
4
airyland 2020-03-24 11:44:50 +08:00
看描述并不能确定是哪方面的问题,但是据我经验这种问题更多的是业务上导致的问题。
你应该看看网站的访问日志确认是否外部流量异常。 |
5
xshwy OP |
6
opengps 2020-03-24 12:40:36 +08:00
重启后可以正常使用,这个表现高概率是你系统内部应用有问题。至于是操作系统的应用,还是你自己部署的应用,需要你进一步分析,云厂商不允许触碰客户数据的。
你可以尝试下找懂技术的腾讯云工单支持,提供帐号密码授权协助试试看,阿里云那边曾经这样帮助过我(前几年)。腾讯云这边应该也会有这类特事特办的流程 |
7
stiekel 2020-03-24 15:03:58 +08:00
如果重启可以解决,那可以停掉一些业务用的服务试一下。
|