V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Distributions
Ubuntu
Fedora
CentOS
中文资源站
网易开源镜像站
superkey
V2EX  ›  Linux

服务器提示有坏道,该怎么查是那块盘

  •  
  •   superkey · 2015-02-09 18:45:05 +08:00 · 5751 次点击
    这是一个创建于 3567 天前的主题,其中的信息可能已经有所发展或是发生改变。

    公司的ERP系统日志提示有坏块,在不影响ERP平台运行的情况下,Red Hat系统下怎么检测硬盘有没有坏道,做了raid的又如何准确的找出对应的盘呢?
    本人对linux不是很懂,求v2好友帮忙,谢谢了。

    18 条回复    2015-02-16 10:35:50 +08:00
    geeklian
        1
    geeklian  
       2015-02-09 19:02:18 +08:00
    直接看服务器的面板?raid检测出坏道,会有黄灯闪的。
    yanest
        2
    yanest  
       2015-02-09 19:03:55 +08:00
    erp还能提示坏道?
    superkey
        3
    superkey  
    OP
       2015-02-09 19:07:48 +08:00 via Android
    @yanest erp日志提示有坏块,就是不知道准不准,所有想检测下
    notnumb
        4
    notnumb  
       2015-02-09 19:21:20 +08:00   ❤️ 1
    smartctl 可以看很多raid逻辑卷下每个磁盘的状态,但你可能不习惯

    LSI为例
    MegaRAID有
    megacli
    storcli

    LSI Fusion-MPT有
    sas2ircu

    hp就是hpacucli
    areca也有cli64
    intel应该是CmdTool2

    lspci看品牌看芯片,找cli即可

    软raid
    mdadm或着raidz就用系统命令看即可
    manoon
        5
    manoon  
       2015-02-09 20:16:40 +08:00 via Android
    对于这种情况
    我建议楼主趁春节期间加个班,申请把服务停一下。
    然后直接用阵列自带的工具进行报告收集,然后把结果发回厂商。
    bjzhush
        6
    bjzhush  
       2015-02-09 20:33:11 +08:00
    先备份重要数据,不然就多准备两包纸巾。。。哭的时候用
    pubby
        7
    pubby  
       2015-02-09 21:13:19 +08:00   ❤️ 1
    @manoon 机器不太老还好,碰到太老的机器,停机了能不能再次开起来还是个未知数 :D
    menory
        8
    menory  
       2015-02-09 21:17:57 +08:00
    印象中IBM DELL HP的服务器都有工具可用看硬盘的。
    还是早点备份数据吧
    likuku
        9
    likuku  
       2015-02-09 22:26:30 +08:00
    看卡,有些卡是提供工具软件的,可以直接查得出诊断日志,交给厂商分析就可...(我去年底有查过Dell的,LSI的卡,Dell工程师给了个工具,RPM包,Debian下装了RPM支持,就可了,诊断工具,得出日志,交Dell的人分析,完事。自己看也看的出,诊断日志里有明确告诉你哪块硬盘不正常的)。
    joyzx
        10
    joyzx  
       2015-02-09 22:32:31 +08:00
    @geeklian 只有脱机了,才亮灯吧?坏道这种的应该不会亮吧
    superkey
        11
    superkey  
    OP
       2015-02-09 22:34:50 +08:00 via Android
    @likuku 目前应该是轻微的坏道还没到整个硬盘不工作
    geeklian
        12
    geeklian  
       2015-02-09 22:57:51 +08:00
    @joyzx 只要单块盘的S.M.A.R.T有异常,就会亮灯。至少单位的IBM X3650 X3850都是这样的。。
    superkey
        13
    superkey  
    OP
       2015-02-09 23:08:21 +08:00 via Android
    @notnumb badblocks 这个系统命令不知如何
    bl5c
        14
    bl5c  
       2015-02-09 23:16:10 +08:00
    @pubby 确实,开了5,6年的机器都不敢关,就怕再开不起来。。。
    sampeng
        15
    sampeng  
       2015-02-10 14:07:16 +08:00
    1,马上找一块硬盘做对拷备份。
    2,关机,换好的硬盘上去,开机。继续跑业务。
    3,修硬盘。

    为啥?因为与其让一个完全没问题的硬件在线上,也绝对不能让可能有问题的硬件在线上。
    否则,迟早有一天定时炸弹爆炸。

    LZ现在的做法就是看着定时炸弹不敢拆。。。
    sampeng
        16
    sampeng  
       2015-02-10 14:09:39 +08:00
    @superkey 千万别想当然。。除非你对硬件了如指掌。。。这可是定时炸弹。。
    以前我们公司硬盘就是出了点小问题,没管。然后某一天,系统崩溃,起不来了。做了raid硬盘全部熄火。
    损失惨重,大量业务数据恢复,费事费力。。
    ioiioi
        17
    ioiioi  
       2015-02-16 09:20:12 +08:00
    @bl5c
    为什么那些老机器重启之后就起不来了呢?
    bl5c
        18
    bl5c  
       2015-02-16 10:35:50 +08:00
    @ioiioi 连续运行几年的服务器,关机再开会出现各种意想不到的问题。。。参见7楼兄弟的正解
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2859 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 05:56 · PVG 13:56 · LAX 21:56 · JFK 00:56
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.