V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
zhaojiaxing
V2EX  ›  问与答

问题来了,什么底层系统软件能造成这么大的故障呢?

  •  
  •   zhaojiaxing · 2023-11-29 11:29:42 +08:00 · 4005 次点击
    这是一个创建于 389 天前的主题,其中的信息可能已经有所发展或是发生改变。
    再一次致歉
    11 月 27 日夜间发生的系统故障,给广大用户造成了诸多困扰和不便,在大家需要我们的时候,我们让大家失望了,再次向大家真诚致歉。
    各项服务恢复的同时,我们在 28 日启动了内部复盘调查。初步确定,这起事故的起因是底层系统软件发生故障,并非网传的“遭受攻击”,后续我们将深入开展技术风险隐患排查和升级工作,全面保障服务稳定性,尽最大努力避免类似事故再发生
    目前,滴滴 App 的所有服务已经全部恢复。因这起事故给大家造成的困扰和问题,我们正在加快妥善解决。感谢大家对滴滴的鞭策、关心和包容。今天的滴滴还有很多不足,我们将以此为戒,在全公司范围内深刻反思,全力改正,继续努力做好服务保障。
    滴滴出行
    2023 年 11 月 29 日
    25 条回复    2023-11-30 10:15:28 +08:00
    lDqe4OE6iOEUQNM7
        1
    lDqe4OE6iOEUQNM7  
       2023-11-29 11:30:42 +08:00   ❤️ 8
    开猿节流,降本增笑
    lDqe4OE6iOEUQNM7
        2
    lDqe4OE6iOEUQNM7  
       2023-11-29 11:31:36 +08:00
    常规的 bug,不可能宕机这么久
    zfy941
        3
    zfy941  
       2023-11-29 11:33:09 +08:00
    了解底层和能解决底层问题的人被优化了
    写 ppt 的人发现怎么写 ppt 也解决不了问题
    stinkytofu
        4
    stinkytofu  
       2023-11-29 11:39:25 +08:00   ❤️ 4
    越底层的服务, 平时越不显眼, 开发维护人员越得不到重视, 甚至都写不了漂亮的 KPI
    weiweiwitch
        5
    weiweiwitch  
       2023-11-29 11:44:35 +08:00
    @stinkytofu 这其实也是做后端特别是底层基础设施的人的苦和原罪。
    即使公司很重视,但因为是保障性工作。也是非常依赖技术人的职业道德和自律来维持。管理层做的最多,也只能像菩萨一样供着,但也无法一定保证不出问题。
    bt7vip
        6
    bt7vip  
       2023-11-29 11:59:49 +08:00 via Android   ❤️ 4
    遇到 xfs 系统因为驱动缺陷,空间被占满导致宕机,重启后,挂载没有报错,执行任何读写操作都会报错,存在块错误。
    可以解决吗?
    常规方法,校验文件完整,进行修复。
    能做吗--不做。
    20t 数据,因为几个块数据没写入,就造成整个系统文件损坏,校验就要校验 20T ,还不保证数据能恢复。
    有人能做吗--有,找精通 xfs 的人处理。
    费用谁出,手动修复失败谁背锅。非在职人员处理接触业务,出了问题谁担责。
    招一个???刚裁掉。
    zhaojiaxing
        7
    zhaojiaxing  
    OP
       2023-11-29 13:23:41 +08:00
    @bt7vip 艹,悲哀啊
    zhaojiaxing
        8
    zhaojiaxing  
    OP
       2023-11-29 13:24:03 +08:00
    @weiweiwitch 确实会这样,太难了
    dode
        9
    dode  
       2023-11-29 13:27:55 +08:00
    滴滴作为上市公司有义务公布这个故障详细原因吗?
    kokutou
        10
    kokutou  
       2023-11-29 13:41:50 +08:00
    oa 系统数据库在一个 Linux 服务器上,
    磁盘是 lvm thin 的, 格式是 xfs

    硬盘没有满, 但是为啥程序报错了, 写入不了了呢...

    检查发现 meta 满了....
    fxxkgw
        11
    fxxkgw  
       2023-11-29 13:50:14 +08:00 via Android   ❤️ 1
    K8S 多了就不透露了
    zong400
        12
    zong400  
       2023-11-29 14:05:39 +08:00
    #6 #10 是真相?
    LXchienne
        13
    LXchienne  
       2023-11-29 14:24:41 +08:00
    @kokutou #10 求问,oa 系统挂了,为啥 app 端也一锅端了呀
    iyiluo
        14
    iyiluo  
       2023-11-29 14:52:13 +08:00
    整天说高可用,容灾,异地部署,怎么一台机器挂了就全挂了
    crazyTanuki
        15
    crazyTanuki  
       2023-11-29 14:52:27 +08:00
    裁员省的钱和出问题亏损的钱,哪个多?
    Goooooos
        16
    Goooooos  
       2023-11-29 15:06:20 +08:00


    网传截图,不知道真假
    LeibnizLeo
        17
    LeibnizLeo  
       2023-11-29 15:27:01 +08:00
    学到了学到了
    shengmi
        18
    shengmi  
       2023-11-29 15:48:44 +08:00
    道理都懂,先别急~让开车的上下班先爽几天
    zhaojiaxing
        19
    zhaojiaxing  
    OP
       2023-11-29 16:15:11 +08:00
    @Goooooos 好像都在传这个版本
    buffzty
        20
    buffzty  
       2023-11-29 16:49:29 +08:00
    18 个小时才修复 肯定就不是技术问题 而是经验问题了 有些软件一旦升级就出错 而且这个错你搜不到 就是无法运行 除非你以前搞过 不然就慢慢从底层往上研究吧 他们 18 个小时才好 说不定以前负责这个的人改个参数就重启好了
    xishijt
        21
    xishijt  
       2023-11-29 17:27:05 +08:00
    @Goooooos imgurl 屏蔽了大部分鸡场 IP 要怎么正确查看?
    Goooooos
        22
    Goooooos  
       2023-11-29 17:48:57 +08:00
    V2Q
        23
    V2Q  
       2023-11-29 17:59:33 +08:00
    我乱说的,会不会被黑了,前不久的阿里 ,这次的滴滴,下一个 xxx
    Stoney
        24
    Stoney  
       2023-11-29 23:40:08 +08:00 via iPhone
    @xishijt
    套 warp
    somebody1
        25
    somebody1  
       2023-11-30 10:15:28 +08:00
    @V2Q
    xvide ?没关系,还有 phub 呢
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2798 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 11:45 · PVG 19:45 · LAX 03:45 · JFK 06:45
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.