阿里云买的服务器, 东北节点 1G 内存, 40G 盘
最近事故出现频繁, 看起来就是网站挂了, ssh 不上去, 然后超时 服务 80 和 8080 都有, 都是 pending 很久然后超时
提交工单, 客服说 io 高, 丢我一个连接让我自己折腾 麻蛋, 我连服务器都上不去, 管理终端也连不上去, 给我一个帖子能怎么解决问题,
重启后改善, 但是上面只有 mysql , docker, tomcat, 平时硬盘 io 也是 10M/s 级别, 假死时, cpu load 也才 0.2 左右,
用 iotop 监控, 发现假死时最后的监控, 前三有两个都是阿里自己的服务!
│Actual DISK READ: 203.99 M/s | Actual DISK WRITE: 87.95 K/s │ TID PRIO USER DISK READ DISK WRITE SWAPIN IO> COMMAND │ 2185 be/4 root 12.80 M/s 0.00 B/s 0.00 % 99.99 % python /usr/sbin/iotop │ 1498 be/4 root 13.35 M/s 0.00 B/s 0.00 % 99.99 % AliHids [Thread (pooled)] │ 1439 be/4 root 8.06 M/s 0.00 B/s 0.00 % 99.99 % AliHids [QThread] │ 4572 be/4 www-data 8.33 M/s 0.00 B/s 0.00 % 99.99 % apache2 -DFOREGROUND │ 4514 be/4 www-data 10.39 M/s 0.00 B/s 0.00 % 99.99 % apache2 -DFOREGROUND │ 4624 be/4 mysql 7.14 M/s 0.00 B/s 0.00 % 99.99 % mysqld │ 1400 be/4 root 9.99 M/s 0.00 B/s 0.00 % 99.99 % AliHids │ 4615 be/4 mysql 13.70 M/s 0.00 B/s 0.00 % 99.99 % mysqld │ 4621 be/4 www-data 7.53 M/s 0.00 B/s 0.00 % 99.99 % apache2 -DFOREGROUND │ 2366 be/4 dix 2.09 M/s 0.00 B/s 0.00 % 99.99 % java -Djava.util.lo~rtup.Bootstrap start │ 2105 be/4 dix 10.59 M/s 0.00 B/s 0.00 % 99.99 % tmux new -s di │ 2357 be/4 dix 1222.61 K/s 0.00 B/s 0.00 % 99.99 % java -Djava.util.lo~rtup.Bootstrap start │ 1142 be/4 root 3.10 M/s 0.00 B/s 0.00 % 99.99 % docker -d │ 1307 be/4 root 7.65 M/s 0.00 B/s 0.00 % 99.99 % AliYunDunUpdate │ 2767 be/4 dix 1099.74 K/s 1262.48 B/s 0.00 % 99.99 % java -Djava.util.lo~rtup.Bootstrap start │ 1347 be/4 root 5.19 M/s 0.00 B/s 0.00 % 99.99 % AliYunDun │ 707 be/4 root 1201.24 K/s 0.00 B/s 0.00 % 99.99 % docker -d │ 947 be/4 mysql 4.69 M/s 0.00 B/s 0.00 % 99.99 % mysqld │ 4598 be/4 mysql 1997.28 K/s 0.00 B/s 0.00 % 99.99 % mysqld │ 2945 be/4 mysql 2.03 M/s 0.00 B/s 0.00 % 99.99 % mysqld │ 1966 be/4 ntp 6.41 M/s 0.00 B/s 0.00 % 99.99 % ntpd -p /var/run/ntpd.pid -g -u 103:109 │ 2359 be/4 dix 364.52 K/s 36.16 K/s 0.00 % 99.99 % java -Djava.util.lo~rtup.Bootstrap start │ 2479 be/4 dix 198.08 K/s 0.00 B/s 0.00 % 99.99 % java -Djava.util.lo~rtup.Bootstrap start │ 3385 be/4 mysql 3.82 M/s 0.00 B/s 0.00 % 99.99 % mysqld │ 3591 be/4 mysql 1488.51 K/s 0.00 B/s 0.00 % 99.99 % mysqld │ 1495 be/4 root 3.20 M/s 0.00 B/s 0.00 % 99.99 % AliHids [Thread (pooled)] │ 2106 be/4 dix 4.36 M/s 0.00 B/s 0.00 % 99.99 % -zsh │ 945 be/4 mysql 2.92 M/s 0.00 B/s 0.00 % 87.46 % mysqld │ 4432 be/4 root 4.12 M/s 0.00 B/s 0.00 % 84.23 % apache2 -DFOREGROUND │ 2352 be/4 dix 771.79 K/s 841.65 B/s 0.00 % 83.91 % java -Djava.util.lo~rtup.Bootstrap start │ 4614 be/4 mysql 1191.38 K/s 0.00 B/s 0.00 % 75.89 % mysqld │ 4560 be/4 mysql 1310.15 K/s 0.00 B/s 0.00 % 75.77 % mysqld │ 949 be/4 mysql 1904.40 K/s 0.00 B/s 0.00 % 64.58 % mysqld │ 4570 be/4 mysql 1189.74 K/s 0.00 B/s 0.00 % 58.15 % mysqld │ 4588 be/4 mysql 1231.24 K/s 0.00 B/s 0.00 % 57.72 % mysqld │ 3622 be/4 dix 2.24 M/s 0.00 B/s 0.00 % 56.63 % sshd: dix@pts/2 │ 925 be/4 mysql 62.06 K/s 0.00 B/s 0.00 % 51.01 % mysqld
求是否有同样情况的朋友?
阿里云是不是也是虚高的配置?然后各种复用, 将负载大的用户 压到众多普通用户服务器上?
1
LuoDiNate OP │Actual DISK READ: 203.99 M/s | Actual DISK WRITE: 87.95 K/s
│ TID PRIO USER DISK READ DISK WRITE SWAPIN IO> COMMAND │ 2185 be/4 root 12.80 M/s 0.00 B/s 0.00 % 99.99 % python /usr/sbin/iotop │ 1498 be/4 root 13.35 M/s 0.00 B/s 0.00 % 99.99 % AliHids [Thread (pooled)] │ 1439 be/4 root 8.06 M/s 0.00 B/s 0.00 % 99.99 % AliHids [QThread] 这是前三 |
2
MiguelValentine 2016-08-12 14:38:32 +08:00
我之前也遇到,两次。
|
3
LuoDiNate OP @MiguelValentine 有解决办法么?
|
4
MiguelValentine 2016-08-12 14:45:50 +08:00
@LuoDiNate - -!怼过工单,跟你一样的情况。一口咬定我这的问题。。
|
5
LuoDiNate OP @MiguelValentine 同一个 docker 镜像, 在配置更低的 aws 上跑了半年没出过一次问题, 我 docker 导出的 zip 包来过了, 一周宕机 4/5 次, 气死我了
|
6
kozora 2016-08-12 14:58:32 +08:00
阿里个位数的 IO 我也是怕了
|
7
scys 2016-08-12 15:17:39 +08:00
阿里云跑任何 IO 都要小心: D
|
8
niudaye 2016-08-12 15:18:27 +08:00
我的也是这样,刚开始一周挂四五次,现在就是重启后也打不开了。
|
9
hgzz 2016-08-12 15:55:33 +08:00
我也遇到过很多次,后来还是把自己程序优化了一下,后面就再也没出现过了
|
10
SourceMan 2016-08-12 16:12:19 +08:00
我也是, 2 月份一次, 6 月份一次,全部站点挂掉
查询原因是 IO 突然跑满,机器假死,只能控制台“硬重启” |
13
yangdehua 2016-08-12 16:41:53 +08:00
看看 io 能力是多少 lsblk -t -d
|
15
lun10439547 2016-08-12 17:55:27 +08:00
我已经 N 多次了。。。幸亏 不频繁。。。。也就一两个月重启一回。。。。。真烦
|
17
fangpeishi 2016-08-12 18:27:12 +08:00
樓主貼下對應 ECS 的 IO 監控圖看看。遇到過,一般都是 IOPS 打的過高,然後假死了,得重啓。
可以換 SSD 雲盤,換 2 系的 CPU ,開 IO 優化看看。 |
18
em70 2016-08-12 18:28:39 +08:00
mysql 部署到 RDS 去
|
19
notgod 2016-08-12 18:29:50 +08:00 via iPhone
你们试试 使用 nginx + pagespeed
开缓存 经常假死 nginx 查日志 全部是缓存文件读取 slow 引起的问题 这么多年这玩意还是没长进 尽然升级降级功能都找不到 谁教我下? |
21
billlee 2016-08-12 19:37:45 +08:00
把云盾关了并删除
|
22
jiongxiaobu 2016-08-12 20:12:28 +08:00
+ 1
|
23
ragnaroks 2016-08-13 10:14:12 +08:00
卸载云盾有一点用,但是原罪是 IO
云磁盘还没我淘宝买的扩容盘快 |