本来攒了个 nas 之后挺高兴的,没想到总是死机,每次死机周期还挺长,已经好几次持续数月了。
实在是没招儿了,求助各位专家,如果先换硬件的话先换什么呢
1
alfawei 36 天前
内存条换一个看看
群晖不管黑白都非常非常稳定 |
2
memorybox 36 天前
第一反应是内存; 两根内存留一根,挨个试试?
|
3
Puteulanus 36 天前
蹲一个,我朋友那的 x86 软路由也是隔一段时间随机死,为了避免死机都设置成每天定时重启了,现在比较怀疑的是内存,其次是电源,因为工控机 CPU 取不下来(狗头)
|
4
ajaxgoldfish OP @memorybox 嗯嗯,目前准备拔一根试试
|
5
ScotGu 36 天前
早年间把 PCIE3.0*8 的万兆网卡 插到 PCIE3.0 X4 (物理槽是 X8 的),也挂过。
|
6
happyn 36 天前
如果是 PVE 的话,我碰上过网卡负载大的时候自动重启的问题,解决方法参考这里:
https://forum.proxmox.com/threads/e1000-driver-hang.58284/page-8#post-390709 |
7
zhixiao 36 天前
我之前也有过会死机的情况,后来发现主板纽扣电池没电了,换了个就再也没出现了
|
8
caltong 36 天前
内存没问题的话就换主板吧,顺带买张诊断卡,到时候方便排查具体卡点。
|
9
ningfan120 36 天前
NAS 的话,还要考虑有没有那个应用持续吃内存,把内存爆掉了,然后就会死机了。
|
10
null2error 36 天前
这不请出日志大法?能稳定复现的问题一般不会太难查~
|
11
OysterQAQ 36 天前
内存没问题就直接换主板,排查代价很大,而且基本查不出
|
12
frankilla 36 天前
我的 pve 每月更新一次系统,在此期间没有死过一次。感觉有没有可能是硬盘问题咧?
|
13
lxh1983 36 天前 via iPhone
我的 8505 装 PVE 或者 unraid 也会死机,后来关掉 C1 就好了
|
14
zzNucker 36 天前
基本主板或者 U 的问题
|
15
ajaxgoldfish OP @zzNucker 这么严重吗 =。=
|
16
ajaxgoldfish OP @null2error 不能稳定复现,每次运行五天以上才会死,五天以后就不定时的死机了
|
17
yelc668 36 天前
感觉是内存条跟板不兼容 大概率是这样我猜的
|
18
riazjack218 36 天前
不定时死机的问题之前我也遇到过,每次隔一周左右就死机了,情况和楼主的描述也大差不差,不过我的系统是 esxi
``` 2024-09-21T09:16:15.508Z cpu2:2099372)[45m[33;1mVMware ESXi 6.7.0 [Releasebuild-15160138 x86_64][0m Machine Check Exception: Fatal MCE on PCPU2 in world 2099372:vmm2:linux-2?System has encountered a Hardware Error - Please contact the hardware vendor 2024-09-21T09:16:15.508Z cpu2:2099372)cr0=0x80050033 cr2=0x7f3384751518 cr3=0x12e6ea000 cr4=0x152660 2024-09-21T09:16:15.508Z cpu2:2099372)frame=0x451a0261bec0 ip=0x41801354745b err=18 rflags=0xffffffffffffffff 2024-09-21T09:16:15.509Z cpu2:2099372)rax=0xffffffffffffffff rbx=0xffffffffffffffff rcx=0xffffffffffffffff 2024-09-21T09:16:15.509Z cpu2:2099372)rdx=0xffffffffffffffff rbp=0x1 rsi=0xffffffffffffffff 2024-09-21T09:16:15.509Z cpu2:2099372)rdi=0xffffffffffffffff r8=0xffffffffffffffff r9=0xffffffffffffffff 2024-09-21T09:16:15.509Z cpu2:2099372)r10=0xffffffffffffffff r11=0xffffffffffffffff r12=0xffffffffffffffff 2024-09-21T09:16:15.509Z cpu2:2099372)r13=0xffffffffffffffff r14=0xffffffffffffffff r15=0xffffffffffffffff 2024-09-21T09:16:15.509Z cpu2:2099372)pcpu:0 world:2099368 name:"vmm0:ikuai (V) 2024-09-21T09:16:15.509Z cpu2:2099372)pcpu:1 world:2099590 name:"vmm3:linux-1" (V) 2024-09-21T09:16:15.509Z cpu2:2099372)pcpu:2 world:2099372 name:"vmm2:linux-2 (V) 2024-09-21T09:16:15.509Z cpu2:2099372)pcpu:3 world:2099371 name:"vmm1:linux-3 (V) 2024-09-21T09:16:15.509Z cpu2:2099372)@BlueScreen: Machine Check Exception: Fatal MCE on PCPU2 in world 2099372:vmm2:linux-2?System has encountered a Hardware Error - Please contact the hardware vendor 2024-09-21T09:16:15.509Z cpu2:2099372)Code start: 0x418013400000 VMK uptime: 6:06:35:27.868 ``` 后来排查发现是宿主机中 CPU 使用率过高,虚拟机无法正常获取资源导致的磁盘 io 延迟过高进而导致 esxi 的崩溃;楼主如果有空的话可尝试装个 esxi 观察几天,等出现紫屏的时候再看看详细的 debug |
19
tbc3211 36 天前
没日志估计是供电问题,之前我拆开看电源线都烧黑了
|
20
Y9qn1d 36 天前 via iPhone
群辉死机重启后不应该有异常提示的吗?
|
21
xiaomayi000 36 天前
把双 16G 内存,换成先挨个用单条试下。
|
22
weeka 36 天前
供电问题?我之前 PVE 用的服务器拆机 1u 300w 电源,平时负载在 180w 左右,跑了 2 年没问题,但是突然有一天莫名其妙死机,后来就会断断续续死机,也是查不到日志,各种排除原因是 PVE 系统负载高就会死机,后来换了个全新电源就好了
|
23
m1nm13 36 天前
装个 windows 跑个 tm5 确认不是内存有问题.那基本上大概率是主板有问题
|
25
jhytxy 36 天前 via iPhone
这个真不好查
我也碰到过 以为是买的杂牌 ssd 问题 结果换来换去还是那样 后来上了个稳压电源再没出现过 |
26
breakplus 36 天前
有可能是内存占满了
|
27
likai 36 天前
负载过高或温度太高.系统假死了
|
28
caola 36 天前
碰到过电压不稳定造成的类似问题,后来直接弄个 UPS 做为前置电源,起到稳压的同时还能在断电后发送关机指令,防止突然断电对硬盘和数据的损坏
|
29
busterian 34 天前 via Android
我的 pve 之迁移到新固态硬盘,迁移后和你描述的情况差不多,明明这两个固态性能差距没那么大,但是实际使用起来迁移后卡的要死,甚至带蹦 pve, 然后排查原因是 linux 虚拟机迁移后不知什么原因导致 mysql worker 疯狂占用 cpu 资源导致的
|