V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
wuyadaxian
V2EX  ›  硬件

东芝硬盘是垃圾,奉劝各位不要买。求帮助!

  •  
  •   wuyadaxian · 2024-01-18 17:38:16 +08:00 · 8743 次点击
    这是一个创建于 380 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我在日本某动画公司工作,因为公司业务需要,需要弄一台大点的 SAMBA 共享服务器。

    于是去年年底购入了 16 块,16TB 的 toshiba ,型号 MN08ACA16T/jp 。

    日本国内质保 3 年,免费换新。

    售后挺好的。但是噩梦来了。


    去年 9 月购入,然后装机,上机架,系统设置,一气呵成。

    15 盘 RAID10 ,+1 备用盘。合计 109T 可用空间。

    然后做了 1 个月测试,没发现问题。

    然后将业务数据移动到新服务器上。

    正常开始跑业务。

    也就是公司内部的作画 psd ,摄影 ae 做影片到处 mov 等数据在传输。


    接下来 11 月开始卡了。

    各种卡,表现为 smbd 或者 flush 进程 100%。

    硬盘 io 全为 0.

    甚至 dmesg 都出现内核恐慌了。

    分析了下就是写入硬盘,然后没了。

    等待 30-300s 随机时间,硬盘写入恢复。

    怀疑写入遇到坏块了。

    smartctl 测试走起。

    好家伙,16 块盘,有 6 块报坏块。


    不得不说,日本经销商态度可以。

    马上 [私密马赛,私密马赛,私密马赛]

    我们给你换。

    换货邮费还是经销商全包。

    甚至提供先发货,我再退货的服务。


    换货之后

    陆续小卡,恢复时间很短,基本上 10s 内。

    而且 SMART 也不报错,smartctl -t long 测试也能无错通过。

    我就放置了。


    24 年 1 月 12 日,

    又开始了,超级大卡。

    这次恢复时间居然超出了 600s ,

    所有含写入的进程都在内核恐慌。

    dmesg 拉了 300 多行.

    关键是这个一卡,公司业务全部要暂停,

    硬盘写入读取完全无响应。

    同事翘脚抱怨,我就只能打哈哈调试。


    之后从 12 日开始到今天 18 日,

    每天都有十来次卡顿,

    30s-120s 才能恢复。

    关键是 SMART 不报错。

    日嘛,头都大了。

    你要是报错,我就把你提出来找经销商换新啊。

    你啥错误都不报,smartctl test 还能正常无错通过。

    但是就是卡,简直要了我的狗命。


    老板问,为啥服务器又卡了。

    我,硬盘可能又坏块,要坏了。

    老板,那找厂家换吧。

    我,硬盘没报错,暂时还不能保修换新。

    老板,你 TM 拿我开心啊,给我去解决这个问题。

    我,打工人乖乖退下。


    mb 东芝硬盘,

    现在虽然偶尔卡顿,但是每天业务还在进行。

    我又不能现在卸载硬盘来跑个完整的写入测试。


    求问各路大佬有没有什么办法。

    任何方法都可以尝试。

    真心求问。

    79 条回复    2024-01-22 12:29:42 +08:00
    aaniao002
        1
    aaniao002  
       2024-01-18 17:52:20 +08:00 via Android
    感觉像买到 smr 了,用硬盘产品型号那一串查一下,如果是 smr 直接全换了吧。写入量一高各种卡。
    lesismal
        2
    lesismal  
       2024-01-18 17:54:59 +08:00   ❤️ 1
    有故障现象就拿去售后,人家没说你用户自己检测不报错就不能售后吧?
    wuyadaxian
        3
    wuyadaxian  
    OP
       2024-01-18 17:55:36 +08:00
    @aaniao002 CMR ,确认过了。买的时候和商家确认了,官网也确认了,第一次保修换新的时候也确认了,就是 CMR 。但是感觉比 SMR 还垃圾
    wuyadaxian
        4
    wuyadaxian  
    OP
       2024-01-18 17:58:11 +08:00
    @lesismal 拆不掉,主业务在上面。只能提供报告,然后对面寄新盘,同时交换了,我再把旧盘发回去。
    ---
    现在让我拆 RAID10,拆一半出去,很慌,我怕刚拆完,另一半的某块盘报坏块了。
    wuyadaxian
        5
    wuyadaxian  
    OP
       2024-01-18 17:59:43 +08:00
    @lesismal 返厂检查至少 2 周起,检查这两周不给备用盘,RAID10 抽走一半,我怕是要 GG
    gamexg
        6
    gamexg  
       2024-01-18 18:17:53 +08:00   ❤️ 2
    数据重要不?
    重要赶紧买新硬盘替换掉.

    另外是不是其它硬件存在问题?
    6/16 的故障几率是不是也太离谱了?
    电源之类有问题造成硬盘损坏?


    要不临时买少量几个其他品牌的盘替换掉目前的盘,然后把替换下来的返厂看看厂家怎么说?
    bihui
        7
    bihui  
       2024-01-18 19:10:54 +08:00
    MN08ACA16T/jp 。 我好像买的也是这个
    xausky
        8
    xausky  
       2024-01-18 19:11:00 +08:00
    感觉不至于呀,我这国内买的矿渣东芝盘都还挺好的
    GooMS
        9
    GooMS  
       2024-01-18 19:30:12 +08:00 via Android
    检查下硬件把
    Pichai
        10
    Pichai  
       2024-01-18 19:32:22 +08:00
    我咋看新闻东芝都要把存储业务卖掉了!
    Donahue
        11
    Donahue  
       2024-01-18 19:33:04 +08:00
    我觉得主要的硬盘厂商 东芝 西数 希捷就这三家吧,问题应该不是东芝,可能受到电源等外部因素影响的,我去年闲鱼买的东芝 14TB 矿渣都没什么问题
    northbrunv
        12
    northbrunv  
       2024-01-18 19:37:19 +08:00 via Android
    企业级还得是希捷靠谱啊
    shijingshijing
        13
    shijingshijing  
       2024-01-18 19:42:31 +08:00
    东芝的盘是三家里面最稳定的了,建议先还是查看一下电源吧
    datou
        14
    datou  
       2024-01-18 19:44:20 +08:00
    大盘只能买企业盘

    TOSHIBA 的企业级是 MG 系列吧

    MN 是什么鬼。。。。
    MoeWang
        15
    MoeWang  
       2024-01-18 19:57:04 +08:00 via iPhone
    要不要做做电源纹波测试先
    dasenlin
        16
    dasenlin  
       2024-01-18 19:59:01 +08:00
    看样子是硬盘背锅了,按概率讲,就算是数据中心的使用频率和量,一年左右同时坏 6 块,这个概率是极低的。再说第二次换新后还是无缘由的无响应,你要考虑下服务器硬件或者软件设置上的问题了。
    这个样子你再次换新硬盘,还是解决不了问题。
    可以先把硬盘替换到新硬件平台排除一下原来平台的问题。
    anyinuo0413
        17
    anyinuo0413  
       2024-01-18 20:07:00 +08:00   ❤️ 1
    俩月多 50%的故障率,感觉不是硬盘的问题,检查下机房环境/电源?
    再差的盘 故障率也不可能这么高啊…
    msg7086
        18
    msg7086  
       2024-01-18 20:12:42 +08:00
    @datou MN 是家用级 NAS 盘。

    @wuyadaxian 按理说 NAS 系列是不太适合那么多盘放在一个机箱里跑的。企业级才适合这种环境。
    比如 Ironwolf 系列只 rate 到 8 块硬盘在一个机箱里跑。
    hGaHLRyC
        19
    hGaHLRyC  
       2024-01-18 20:21:04 +08:00
    16 块盘那么短时间同时 6 块出现坏块,是不是检查下硬盘外的问题啊,比如主板,震动和供电?这比率太高了把?
    datou
        20
    datou  
       2024-01-18 20:27:55 +08:00   ❤️ 1
    @msg7086 8T 以及 8T 以上非企业盘都是坑小白的

    请认准 TOSHIBA MG ,SEAGATE EXOS 和 WDC ULTRASTAR 系列的正统企业级 HDD
    leonme
        21
    leonme  
       2024-01-18 20:30:06 +08:00 via iPhone
    @northbrunv 其实都半斤八两,这玩意儿又没啥技术含量,拼的就是价格和售后
    wuyadaxian
        22
    wuyadaxian  
    OP
       2024-01-18 20:35:46 +08:00
    @gamexg 第一批返回去的 6 块厂家都确认了就是硬盘问题。
    这边上的 4U 机箱,前板和电源之前就测试过了,没有问题。
    估计要换西数了。
    wuyadaxian
        23
    wuyadaxian  
    OP
       2024-01-18 20:39:50 +08:00
    @MoeWang 这个没测过,想了解下
    wuyadaxian
        24
    wuyadaxian  
    OP
       2024-01-18 20:48:07 +08:00
    @hGaHLRyC
    是的。一开始是这么想的。
    考虑过 RAID 卡,前板,电源等问题。
    RAID 卡是两块,前板也是多块,供电至少电力没问题。
    温度适度震动应该都没问题。毕竟机房不是他一台机器。
    另外还考虑过 linux 软件内核等问题。
    最后测试下来,至少硬盘概率最大。

    当然我不能说绝对,至少上面 v 友提到的电源纹波没做过。
    wuyadaxian
        25
    wuyadaxian  
    OP
       2024-01-18 20:49:08 +08:00
    @datou 下次认准了。大容量硬盘真是坑多。
    wuyadaxian
        26
    wuyadaxian  
    OP
       2024-01-18 20:52:23 +08:00
    @dasenlin 估计要启用老服务器,然后进行测试了。但是老服务器是 windows 家庭版。samba 限制 20 人接入。(没听错,windows 家庭版,不是我负责的,前人的智慧
    wuyadaxian
        27
    wuyadaxian  
    OP
       2024-01-18 20:55:09 +08:00
    @msg7086 学到了。有一说一,现在老服务器还有 3TB * 12 的希捷普通盘在 4U 机箱里面跑,听说已经服役了 5 年了,虽然已经挂了 2 块盘,但是稳定性比这个新的还好。
    kkk9
        28
    kkk9  
       2024-01-18 21:22:38 +08:00
    啥牌子啥型号的阵列卡,曾经遇到过一些很魔幻的,除了某一个品牌的盘,其他牌子的都各种出问题😅
    lizhengbo
        29
    lizhengbo  
       2024-01-18 21:24:20 +08:00
    @wuyadaxian

    Windows 还是稳定, 操作简单, 重新迁移到 Windows Server 就好了.

    而且 WinServer 的域权限可以和其他很多文件服务联动, 客户端加不加域都行.

    WinServer 的文件服务还提供很多强大便携的功能, 权限管理又直观.

    例如每创建一个用户, 自动在共享目录下生成该用户的共享目录.

    开源的坑太多.
    lesismal
        30
    lesismal  
       2024-01-18 21:26:10 +08:00
    公司里用,RAID 也不稳,还是多搞一组、一个常用另一个定期备份下好些

    看样子我买的几块二手企业级还是很划算的。。
    wuyadaxian
        31
    wuyadaxian  
    OP
       2024-01-18 21:26:25 +08:00
    @kkk9 lsi 9211-8i 芯片,IT mode ,直通 linux ,mdadm 软 raid
    testonly
        32
    testonly  
       2024-01-18 21:28:32 +08:00
    我觉得你这个问题吧,反正你都不可能再用东芝的了,也肯定要换硬盘的了,那你就去买几个同级别的其他牌子硬盘试试好了。
    如果其他牌子的没问题,就全换那个牌子。
    如果有,就是你们使用上的问题了,要么硬件问题,要么是这个层次的硬盘达不到你们工作强度的需求?
    但你如果直接全部上更高级别的硬盘,那不一定有答案,可能有,可能没,反正自己决定了。
    wuyadaxian
        33
    wuyadaxian  
    OP
       2024-01-18 21:29:21 +08:00
    @lizhengbo 日本公司,winserver 可是需要大价钱购买的。可不是随便就敢用的,查到就罚几千万。不然为什么前人要用 windows 家庭版做 samba 共享服务,因为 windows 家庭版随机附送,约等于免费。
    6a82aa9bfe
        34
    6a82aa9bfe  
       2024-01-18 21:31:22 +08:00 via Android
    硬盘最好不要同个厂商同个批次的,这样就算坏了也不至于同时坏
    wuyadaxian
        35
    wuyadaxian  
    OP
       2024-01-18 21:31:34 +08:00
    @testonly 是的,所以我在想启用老服务器,先把资料转移回去,持续业务的情况下重新测试新服务器。等测试结果再决定。
    wuyadaxian
        36
    wuyadaxian  
    OP
       2024-01-18 21:32:53 +08:00
    @6a82aa9bfe 那批就是同厂,同批次,至少我觉得被坑了。
    mokiki
        37
    mokiki  
       2024-01-18 21:41:19 +08:00
    了解一下 TrueNAS 吧,不仅共享权限设置简单,而且还有邮件报警功能。得益于 OpenZFS 提供的 RAIDZ ,使阵列恢复的用时更少。
    你还在等什么,赶快打开你的浏览器下载吧: https://www.truenas.com/truenas-scale/
    yyzh
        38
    yyzh  
       2024-01-18 22:12:43 +08:00 via Android
    ?你们没备份的么?像我们公司都是用 Barracuda 做本地备份然后每天下班后上传 Barracuda 云做远程备份的,就算服务器硬盘全挂都能很快恢复.
    jdqingm
        39
    jdqingm  
       2024-01-18 22:31:28 +08:00
    会不会是网络冲突什么的
    xcodeghost
        40
    xcodeghost  
       2024-01-18 23:01:07 +08:00
    我们服务器几乎都是东芝的企业级硬盘,感觉质量还可以啊,好像从来都没出现过问题
    lizhengbo
        41
    lizhengbo  
       2024-01-19 00:08:48 +08:00
    @mokiki
    权限设置简单吗, 我试了下不简单啊.
    wuyadaxian
        42
    wuyadaxian  
    OP
       2024-01-19 00:14:13 +08:00
    @xcodeghost 下次换企业级吧,家庭级别感觉不行。
    wuyadaxian
        43
    wuyadaxian  
    OP
       2024-01-19 00:15:47 +08:00
    @jdqingm 不会,因为服务器还有系统盘。所以网络和其他服务是正常的。另外卡的时候,在服务器本地操作,挂载的硬盘也无响应。
    wuyadaxian
        44
    wuyadaxian  
    OP
       2024-01-19 00:18:22 +08:00
    @yyzh 备份不能替代业务盘,业务卡的时候又不能拖出备份盘来用。
    除非做数据集群动态负载均衡。但是小公司没必要吧。
    msg7086
        45
    msg7086  
       2024-01-19 02:48:17 +08:00
    @wuyadaxian #27 希捷普通盘?难道是 barracuda……?
    ZRS
        46
    ZRS  
       2024-01-19 03:09:21 +08:00
    Toshiba 只推荐买 MG 系列
    ltkun
        47
    ltkun  
       2024-01-19 04:14:58 +08:00 via Android
    op raid10 竟然用软 raid 不用 zfs zfs 明显更加灵活性能也应该更好 失误哦 民用东芝是不行的 刚刚我用了五年的东芝被替换了 smart 已经报错 80 多次了
    telaviv
        48
    telaviv  
       2024-01-19 07:19:23 +08:00
    买大硬盘推荐先读这个:
    https://www.backblaze.com/cloud-storage/resources/hard-drive-test-data

    自己的 NAS 用了东芝 MG 的氮气盘,比较安静,还算满意。
    1KTN90lKW9gVJ9vX
        49
    1KTN90lKW9gVJ9vX  
       2024-01-19 07:56:44 +08:00 via Android
    我用东芝 n300 ,16t ,感觉还不错。
    piku
        50
    piku  
       2024-01-19 08:01:42 +08:00 via Android
    正常啊,东芝的机械盘故障率一直是很高的(依据:某数据中心公开的统计报告
    东芝固态(铠侠)其实还行的,但是性价比不高
    litguy
        51
    litguy  
       2024-01-19 08:11:17 +08:00   ❤️ 3
    感觉不像硬盘问题
    硬盘不会这么大规模故障
    重点检查硬盘供电,数据线和 RAID 卡
    怀疑这些不稳定导致硬盘故障的
    16 年企业级存储研发路过
    litguy
        52
    litguy  
       2024-01-19 08:12:43 +08:00
    把硬盘型号,机器配置,RAID 这些相信信息报告一下吧
    Actrace
        53
    Actrace  
       2024-01-19 08:17:18 +08:00
    为啥不考虑 SSD ?
    liuhaibin
        54
    liuhaibin  
       2024-01-19 08:30:20 +08:00
    10 年前买过 2 次东芝,没到就是坏的。从此不敢买
    gbw1992
        55
    gbw1992  
       2024-01-19 08:30:59 +08:00
    这种坏盘几率
    我咋也感觉不像是硬盘的问题的
    类似供电不稳定导致的
    Xenotaros
        56
    Xenotaros  
       2024-01-19 08:37:13 +08:00
    大容量只推荐企业级硬盘
    totoro625
        57
    totoro625  
       2024-01-19 08:38:13 +08:00
    @litguy #51 他是 mdadm 软 raid10 ,没有 raid 卡

    这种情况是不是 zfs 更合适?
    ReZer0
        58
    ReZer0  
       2024-01-19 08:44:12 +08:00
    这个坏盘率的确有些离谱了,除非他们发出来的这个批次的盘大部分都不合格,不然一下子这么多块真的得考虑下电源问题。
    itsjoke
        59
    itsjoke  
       2024-01-19 08:49:10 +08:00   ❤️ 1
    最近一年应该买了上千块 MG 系列,坏盘率低于 ST 和 WD 。真的是稳,不过有一段时间老是坏盘,最后经过反复测试发现是机箱开了全速风扇导致的,供 OP 参考!
    andydebug
        60
    andydebug  
       2024-01-19 08:50:40 +08:00
    人家都退市了,你说渣不渣
    liuzimin
        61
    liuzimin  
       2024-01-19 09:07:40 +08:00 via Android
    只有我在好奇你是怎么找的赴日工作的吗?
    villivateur
        62
    villivateur  
       2024-01-19 09:11:41 +08:00
    我觉得可能是你电源或者机柜温度、震动之类的导致的,不然故障率不可能这么离谱
    yukiww233
        63
    yukiww233  
       2024-01-19 09:44:07 +08:00   ❤️ 1

    8 块都是捡的矿盘 MG ,最长的已经用了 2 年+了,暂时都还挺好的
    Torpedo
        64
    Torpedo  
       2024-01-19 10:39:21 +08:00
    概率上来说,同品牌换货还不行概率比较低。也有可能是别的问题引起的
    wk333
        65
    wk333  
       2024-01-19 11:19:13 +08:00
    @Actrace #53 16*16T 怎么都不会考虑吧
    laminux29
        66
    laminux29  
       2024-01-19 12:15:44 +08:00
    哥们没经验啊...其实买之前应该去论坛或 NAS 群问问的。

    世界上质量最好的硬盘是日立,没有之一。质量好到把自己的厂子给整垮了,现在买不到了。

    最垃圾的是哪个牌子,我不知道,但东芝,是我遇到过,唯一的一款,京东自营全新,用了半年就坏道了的。

    企业级的做法是,希捷企业盘与西数企业盘,间隔着用,而且异物理机+异硬件+异 OS 共 3 副本。
    sorsens
        67
    sorsens  
       2024-01-19 13:15:51 +08:00
    @wuyadaxian #3 你自己测一下硬盘的读写性能,官方写的 cmr 也可能是 smr 的性能。
    测完硬盘性能,就排除一个
    janpun
        68
    janpun  
       2024-01-19 13:18:18 +08:00
    上大学的时候买东芝笔记本,前两个月连续坏了两次,都是因为内置的东芝硬盘
    zundamon
        69
    zundamon  
       2024-01-19 14:10:14 +08:00
    看 backblaze 硬盘报告,企业盘的话东芝 MG08 、西数 UltraStar 故障率都不高,希捷有几款高的要避雷。MN 应该是民用降级款,但是这个故障率还是有点高,检查下是否是电源的问题吧
    geniussoft
        70
    geniussoft  
       2024-01-19 14:17:00 +08:00 via iPhone
    除了硬盘的问题之外,系统的选择也是大问题。

    这种应该直接选择群晖。
    我知道 smartctl 人工也能看,但是谁能坚持每天检查呢?忙起来可能直到崩了才想起检查。
    以及设置每月 Smart 完全检测,以及 Raid Scrub 。

    另外,硬盘目前还是 HGST 牛逼。
    zundamon
        71
    zundamon  
       2024-01-19 14:22:09 +08:00
    @geniussoft HGST 已经变 WDC 咯,认准 ultrastar 就行了
    litguy
        72
    litguy  
       2024-01-19 15:07:38 +08:00
    @totoro625 是的,ZFS 更合适
    mokiki
        73
    mokiki  
       2024-01-19 16:09:33 +08:00
    @lizhengbo #41 web 界面看着有点繁杂,但是还是比手敲那一套命令简单吧。
    zzboat0422
        74
    zzboat0422  
       2024-01-19 16:52:46 +08:00
    最近五年管理过一万块以上大容量 HDD ,只有东芝盘让我们遇到了大坑。现在招投标的要求中已经明确禁止用东芝盘了。
    dog82
        75
    dog82  
       2024-01-19 17:09:48 +08:00
    跟电源有关系,供电不足硬盘很容易坏
    lizhengbo
        76
    lizhengbo  
       2024-01-19 17:25:46 +08:00
    @mokiki
    小公司, 个人直接上 WinServer 是最强方案, 没有之一.

    更别提还有 Hyper-V 强力支援.

    大公司其实折腾这种开源或者社区版方案其实算土方法, 不深入研究出问题很难把控, 深入又投入成本太大, 对个人发展其实没啥帮助, 存粹浪费生命.
    lizhengbo
        77
    lizhengbo  
       2024-01-19 17:30:45 +08:00
    @mokiki

    文件共享, 权限管理等基本需求完全没必要整其他, 就 WinServer 就好了.

    除了历史查看, 修改这个需求, 我想不到有比 WinServer 更稳定, 更省心的操作.

    WinServer 还可以部署在线 Office 预览, 编辑, 兼容性和稳定性不是秒杀 99+的在线办公.
    kkk9
        78
    kkk9  
       2024-01-19 21:01:39 +08:00
    @wuyadaxian #31 9211 刷了 IT 固件,IOPS 上限也只有 18 万左右。考虑换个卡,你也许有新的发现
    wuyadaxian
        79
    wuyadaxian  
    OP
       2024-01-22 12:29:42 +08:00
    基本确认了问题原因,详情看新帖
    https://v2ex.com/t/1010610
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   678 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 20:31 · PVG 04:31 · LAX 12:31 · JFK 15:31
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.