V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Distributions
Ubuntu
Fedora
CentOS
中文资源站
网易开源镜像站
faoisdjioga
V2EX  ›  Linux

Ubuntu 服务器多线程不稳定,数据 md5sum 经常变

  •  
  •   faoisdjioga · 288 天前 · 1876 次点击
    这是一个创建于 288 天前的主题,其中的信息可能已经有所发展或是发生改变。

    在做生物信息学分析过程中,用到的软件为 R/python ,和一些其他生物分析常用软件,在跑多线程任务时候经常出问题。

    1 ) 多线程任务

    1.1 ) 比如,Error in unserialize(node$con) ,还有一些 warning ,说是线程没有返回结果(还有其他一些线程错误代码)

    1.2) R 和其他的软件在跑多线程的时候,用的__好像__是 c++, 是我 c++还需要进行适配嘛?

    1.3) 我 python 跑一些多线程任务时候好像就比较稳定。

    2 ) 有些数据存储过程不稳定

    2.1 ) 下载的生信数据(fastq.gz)md5sum 不知道什么原因就变了(数据有些 quality, reads 长度不一致),数据不可用

    2.2) 但我的一些其他数据好像没有问题,一些基于 R/python 存储的对象,csv ,txt 的超大表格等,没有问题,可以正常读取,数据重新跑,结果也能完美重复,但是我没有 check 过 md5sum

    尝试过的解决方法

    1 ) 重装系统,

    2 ) 换硬盘(固态 -> 硬盘 -> 固态),硬盘挂载方式也从 lvm -> 直接挂载

    3 ) ubuntu 桌面卸载

    4 ) 换软件版本(尝试了超多的版本)

    都不行

    后来用公司服务器跑就没有什么问题(公司用的是铂金的 cpu )。采取和我本地电脑相同的软件配置,相同的数据。

    1 ) 数据稳定

    2 ) 一些软件没有报错

    目前我只能暂定认为是硬件稳定性不好,

    吐血求助: 到底是哪里问题,1 )是家用主板是不是当不了 server ,2 )还是我个人配置问题,3 )还是我硬件没有氪金上高档的。

    我的配置是

    CPU 12700 (散片),

    主板 MSI-B660M ,

    内存 DDR4 asgrad 32GB x 3 ,16GB x 1 ( 22 年购买,用的是网上相对很便宜的 DDR4 )

    系统 Ubuntu

    第 1 条附言  ·  269 天前
    首先非常感谢各位大佬的回复,
    1 ) 关于数据问题:

    * 下载后的数据我每次都会做 md5sum ,确保下载之后的数据完整。我的电脑的问题是:

    * 下载数据 ->md5sum test 通过 -> 过了一段时间(或者跑程序之后) -> md5sum test 就和原来的不一样了。

    * 错误不可控,跑程序 1 -> A 文件坏了 ->重新下重新跑 -> A 文件,也有可能 B 文件坏了:(

    * 目前解决方法: 放弃原来电脑的硬盘,用之前老电脑做了一个 NAS ( truenas ),网络挂载(只读),数据终于稳定了

    2) 程序错误问题:

    正在测试...
    第 2 条附言  ·  254 天前
    内存坏了
    11 条回复    2024-03-12 14:42:57 +08:00
    a22271001
        1
    a22271001  
       288 天前
    看程序代码
    LittleSho
        2
    LittleSho  
       288 天前 via Android
    内存用 memtest86 跑 4 圈看看有没有 error
    CPU 用 intel 处理器诊断工具跑一遍试试(需要在 windows 下跑)
    weidaizi
        3
    weidaizi  
       288 天前
    😂 md5sum 变了这个还有可能是硬盘的问题,但是 OP 说线程返回错误,这个锅都要系统/硬件来背是不是夸张了
    而且啥代码都不贴,给个报错信息,别人怎么知道是什么错误?
    kkkbbb
        4
    kkkbbb  
       288 天前
    操作系统多线程不稳定,头一次听说也是
    F7TsdQL45E0jmoiG
        5
    F7TsdQL45E0jmoiG  
       287 天前
    服务器内存有 ecc 校验
    F7TsdQL45E0jmoiG
        6
    F7TsdQL45E0jmoiG  
       287 天前
    另外,disable cpu 超线程
    ShuWei
        7
    ShuWei  
       287 天前
    极大概率是代码的锅
    laqow
        8
    laqow  
       287 天前
    下载国外数据大概率出错是国内网络特色。另外如果通过移动机械硬盘拷贝 10G 以上数据大概率会出现写入错误,应该用带校正的软件拷贝。ubuntu 默认是缓存读写硬盘,卸载移动硬盘前应该运行 sync 合并缓存。
    python 和 R 原生都是假的多线程,使用 sock 方式实现共享内存时需要复制主进程所有内存,很容易就内存不足。ubuntu 下可以使用 fork 方式实现内存共享。
    imlm
        9
    imlm  
       282 天前
    生信数据库数据 md5sum 校验出问题大概率是网络问题,特别是特别大的 fq 文件,建议更换网络。有些时候为了防止传输 fq 文件中的出错,我会选择做私人种子传输😓
    tomychen
        10
    tomychen  
       277 天前
    检查内存吧 当年撸了个 copy file 因为内存问题,搞得我怀疑人生,直到有一天,我无意中 cp xxx.iso /tmp/xxx.iso
    然后 再 check md5 才发现错怪了自己
    faoisdjioga
        11
    faoisdjioga  
    OP
       254 天前
    测试了很多。mmtest 显示内存有问题。
    不打算继续买内存做测试了。大概率是内存的问题。CPU 和其他硬盘都测了,没有问题。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3359 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 11:37 · PVG 19:37 · LAX 03:37 · JFK 06:37
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.