巧合还是被黑了？一周内 3 台虚拟机的硬盘都坏了...

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

Distributions

› Ubuntu

› Fedora

› CentOS

中文资源站

› 网易开源镜像站

这是一个创建于 3078 天前的主题，其中的信息可能已经有所发展或是发生改变。

3 台虚拟机都强制证书登入，使用 3 个不同的证书（其中 2 个证书有密码）， ssh 端口都不是标准的 22 端口

第一台出问题的是我 PC 里的虚拟机，系统是 Debian 7
半小时前还正常，突然就自动将硬盘挂载成只读，强制重启后进入 grub rescue 模式...后来通过 fsck.ext4 命令修复硬盘才找回大部分数据

然后上周六的时候发现在 vutrl 中的 vps （ Debian 8 ）无法连接，但因为架设在上面的 SS 服务没问题，就没理它了，想说可能是我这边网络问题

然后今天在试了几个网络都连接不上后就到 vutrl 的后台通过 web vnc 连接上去，看到有硬盘坏道的错误信息，但任何输入都没反应，联系客服让重启...重启后又是进入到 grub rescue 模式...好在这台 vps 只是作为翻 Q 用，没资料在上面就直接重装系统了（没重启之前 SS 服务也都是好好的）

突然想到上周六连接到 aws 上的 ec2 （ Debian 8 ）也连接不上，就登入 aws 的控制台看看，发现最后的网络活动已经是半小时前了（这台 vps 上有业务，运营人员发现登陆不上去让我检查）， SSH 也登入不上去，而 aws 又没提供 vnc ，老路子...重启...很好， 4 小时过去了，还无法进入系统， aws 的检查状态卡在 1/2 ...

真是巧合？？还是被黑了呢？？我电脑上有保存着这 3 台虚拟机的密钥，而且 putty 上也有保存着 session 。
但第一台我电脑上的虚拟机没有对外开放，而且发生问题时，我的物理机也处于内网

第 1 条附言 · 2016-11-16 10:23:01 +08:00

aws 上的 ec2 果然也是硬盘问题，新建了一台 ec2，旧卷 mount 不了，提示

[ 281.510042] EXT4-fs (xvdf2): ext4_check_descriptors: Block bitmap for group 128 not in group (block 2711683072)!
[ 281.513949] EXT4-fs (xvdf2): group descriptors corrupted!

我电脑里的虚拟机也是遇到这错误，vutrl 上的 vps 也是这错误，现在 aws 上的 ec2 也是这错误，真是巧合？？？

第 2 条附言 · 2016-11-16 17:51:31 +08:00

又一台阿里云虚拟机挂了

aliyun web 终端最后显示的信息

任何输入都无响应，重启后...

这台出问题的时间大概是 11 月 10 号下午 6 点左右，和我 PC 上虚拟机出问题的日期一致，我虚拟机出问题的时间大概是下午 2 、 3 点。 aws 的 ec2 最后服务时间是 15 号早上 6 点 44 ，翻墙专用的 vps 直到我强制重启前都可以正常服务，但连接不上去

第 3 条附言 · 2016-11-16 18:00:27 +08:00

BTW ，阿里云 ecs 用的 CentOS 6u5 amd64 系统，不是 Debian

AWS

重启

虚拟机

VPS

24 条回复 • 2016-11-17 09:32:56 +08:00

powergx

2016-11-15 23:45:00 +08:00 via iPhone

aws 的存储是 mirror 3 的，不存在“硬盘坏了”的问题

sopato

2016-11-15 23:47:14 +08:00

被黑的可能性还是很低的了，而且都是磁盘问题，只能理解成巧合了。

yangqi

2016-11-15 23:49:08 +08:00

赶紧喝口水看看会不会塞住牙缝

fuxkcsdn

2016-11-15 23:49:48 +08:00

@powergx 那现在系统启动不了了😂，我该咋办啊？公司买的帐号里没有人工客服的 license

@sopato 我得试着去买张彩票试试😂

ovear

2016-11-15 23:52:59 +08:00 via Android

aws 炸了发工单。。

fuxkcsdn

2016-11-15 23:58:11 +08:00

@ovear
At the Basic Support level, you can create account and billing support cases and service limit increase requests, but you cannot create technical support cases.

还是说在 V2EX 上发工单？？

ovear

2016-11-16 08:53:18 +08:00 via Android

叫 aws 给个 vnc ？

ouqihang

2016-11-16 09:14:30 +08:00 via Android

有相似经历， 2 个不同主机商的 VPS ，重做系统后失联，原因不明。管理页面的操作如关机重启重装没坏，就是连不上，家里的网试过，用第三台美国 VPS 连也不通（第三台也想重置，遇到这种事不敢再动，还要扶墙）。后来想到管理页面的 terminal ，发现 VPS ping 不通外网。分别联系客服， 2 边第一次回复都说搞好了，重装后又掉了， 2 台都一样，有一个直接 offline ，关机重启不能。再次联系，一边换了 IP （他说的，不知有没有换机器），一边直接说本来那个物理机坏了转移到另一台。终于解决，有一家还把我需要的 CentOS7 系统撤下了，一度觉得他们怀疑是用户用 CentOS7 把防火墙玩坏了。一度以为撞鬼了， up time 这么高怎么那么容易坏，还一次坏 2 个在我头上，还是不同主机商。

fuxkcsdn

2016-11-16 09:49:00 +08:00

@ovear 现在新建一台 ec2 ，把旧的停掉，打算把旧的硬盘挂载到新的上面试试

@ouqihang 有时候真的不得不怀疑人生了啊...那么巧合的事也能撞上...好在我要交接的资料都写完并交接清楚了，不然离职可就麻烦了...

fuxkcsdn

2016-11-16 10:21:03 +08:00

@powergx
[ 281.510042] EXT4-fs (xvdf2): ext4_check_descriptors: Block bitmap for group 128 not in group (block 2711683072)!
[ 281.513949] EXT4-fs (xvdf2): group descriptors corrupted!
新建了一台 ec2 ，想把旧卷挂载上来失败，提示...果然是硬盘坏道了吧...
3 台全部都是这个错误，尼玛，开始怀疑人生了

likuku

2016-11-16 10:55:03 +08:00

EBS 么？不该这么容易坏啊。

所以文件放 s3 ，数据放 rds 服务，才是正道啊...

powergx

2016-11-16 10:57:24 +08:00

@fuxkcsdn 我上过 aws 培训，硬盘是 raid1 三盘镜像。磁盘可靠性绝对没问题

ryd994

2016-11-16 12:05:28 +08:00 via Android

aws 可以基本排除硬件问题
如果一升级就挂的话有可能是内核 bug ，这种事情以前有过。但是最近没听说啊……而且是 Debian
黑 VPS 之类的，除非你运气不好遇上菜鸟，否则谁那么无聊来搞坏你机器？抓个肉鸡不好么？
会不会是你使用习惯不好老是拔电源，导致文件系统逻辑错误？
是不都跑了某个自制脚本，特别是用 root 跑？如果直接写入硬盘设备文件，损坏了文件系统结构的话，就是这个样子。

newghost

2016-11-16 13:51:43 +08:00

碰到过这次的情况，也是一升级系统登不进去，但是里面的某个服务跑得还是好好的，估计是 SSH 登录进程起不起来。

解决办法是做个镜像，把老机器装个最新的 debian 系统，再把老镜像挂载到新系统里，文件就都找回来了。

一定要是同一台虚拟机，否则可能网段都不一样。

justfindu

2016-11-16 13:56:32 +08:00

我们也遇到过但不是云就是自有服务器同批次的盘同段时间坏了 2 块~

Showfom

2016-11-16 14:04:21 +08:00 via iPhone

vutrl.....楼主来跟着我拼写 VULTR

fds

2016-11-16 14:15:27 +08:00

应该是跟强制重启有关吧。看网上类似错误不少，有个修复在 https://linuxexpresso.wordpress.com/2010/03/31/repair-a-broken-ext4-superblock-in-ubuntu/

valkjsaaa

2016-11-16 17:19:01 +08:00 via iPhone

嗯，这应该叫文件系统错误，不是硬盘错误。

kmahyyg

2016-11-16 17:28:12 +08:00 via Android

上月连续自己租的 enzu cn2 vps 两台不同网段都是被运营商公告一半硬盘空间不可用，然后那边对拷硬盘、恢复备份，换 ssd ，正常服务。

期间， ss ssh 正常、但无法操作（可登录，无流量出）。

应该不是偶然事件

fuxkcsdn

2016-11-16 17:58:56 +08:00

@ryd994 都没升级，基本上就刚装完系统 apt-get upgrade 一下，之后基本不升级...我虚拟机里最后一次执行 apt-get 估计都 1 、 2 个月前了，翻墙专用那台服务器估计都快 1 年没去动它了吧...aws 就没用过 root （不知道 aws ec2 的默认 root 密码）
拔电源就更不可能了，我自己的虚拟机确实是有几次笔记本来不及关机导致意外关机，但另外几台都是 vps ，都是正常 z 执行命令重启的（而且也基本上没重启过）

@Showfom 不要在意这些细节 🙈

@fds ssh 连接不上， vnc 任何输入都无响应了，不重启不行了啊...

fuxkcsdn

2016-11-16 18:14:55 +08:00

刚跟同事在讨论的时候，他猜测会不会是部署的代码问题
但所有服务器里也就运行 php 代码， php 的插件也都是用 php 原生插件（ yum 或者 apt 安装的），唯一一个第三方插件是 phpredis
但....我自己的虚拟机当时并没跑任何项目，因为当时我只是在写交接资料，并没运行任何项目，即使有，也得有人访问啊... 翻墙那台 vps 甚至只有 ss 在跑

liuyanjun0826

2016-11-17 07:50:40 +08:00

@fuxkcsdn 强制断电也会造成分区损坏的

fuxkcsdn

2016-11-17 09:15:14 +08:00 via iPhone

@liuyanjun0826 是没错，关键是这种情况除了强制重启貌似也没其他办法了啊…

turan12

2016-11-17 09:32:56 +08:00

好吧，我承认我是强迫症，看到 vutrl 恨不得帮 lz 改过来。:p