1
pagxir 2017-01-03 22:15:23 +08:00
父进程状态异常了吧,估计被暂停了。
|
2
zwpaper OP @pagxir 找不到父进程了,现在好像都被挂到 init 下面了,现在 kill 也 kill 不掉,然后僵尸进程数还在增加
|
3
k9982874 2017-01-03 23:32:36 +08:00 via iPhone
猜是谁写了个 sshd 自动执行脚步互锁了?
|
7
lslqtz 2017-01-04 04:17:21 +08:00 via iPhone
kill 后又复活?
试试看多执行几次 killall |
8
lslqtz 2017-01-04 04:18:13 +08:00 via iPhone
对于 CentOS 来说:
service sshd stop killall sshd 然后进一步排查问题(?) 或许很怪查不出 |
9
ryd994 2017-01-04 09:20:21 +08:00
是用了 docker 里的 sshd 么?
如果是的话,不要直接启动 sshd ,用 sh 之类的间接启动 |
11
zwpaper OP @lslqtz killall 不起作用,返回是 0 ,但是进程数一点没少, killall sshd 把我自己踢出去了,再进来还是一样的
|
13
MartinWu 2017-01-04 11:06:47 +08:00
同病相怜。。。
|
14
anjingme 2017-01-04 11:07:48 +08:00
重启下 sshd 看看,当然重启失败了,自己也会被踢出来,搞个 nc 开个口子先再重启。
|
15
MartinWu 2017-01-04 11:07:58 +08:00
千万别去重启 sshd 啊。。。。
|
16
MartinWu 2017-01-04 11:12:57 +08:00
我的情况是,表面跟楼主描述的大致相同。最后放弃治疗,打算把上面的业务迁移到其他机器,就重启了。但是把业务都迁移走了后,突然发现,所有的僵尸都没了。然而我并没有追踪到是哪个进程关闭后,就把僵尸都埋了。
而我现在只追查到,发现 ssh 僵尸都是 sshd 这个用户的,而这个僵尸应该就是 sshd fork 出来负责验证权限的子进程。 |
18
zwpaper OP |
19
zwpaper OP @lslqtz 😳 我现在 service xxx 直接都是 timeout 了。。。
想把我堵 ssh 外面都不行。。。 |
21
w2exzz 2017-01-04 13:31:23 +08:00
chkconfig --level35 sshd off
reboot /usr/sbin/sshd -d |
23
zwpaper OP @w2exzz 现在重启很大可能可以解决问题,但是一个是不希望重启,一个是希望保存现场,研究一下问题到底在哪里。
所以暂时还不 reboot |
26
jyf007 2017-01-04 19:44:05 +08:00 via Android
dropbear
|
27
zwpaper OP @MartinWu 现在发现了一个问题就是 systemd hung 住了,感觉有可能问题出在这个地方。
今天还找到一个说是 210 以前的 systemd 有 bug ,有可能会让 systemd hung 住,但是我的机器上的好像是 213 的,按说不应该。具体版本号我忘了,后来忙别的去了,可以肯定的是比 210 新。 在这看到的: https://bbs.archlinux.org/viewtopic.php?id=178168 现在 /var/log 基本上没有新写入东西了, rsyslog 也在一次失败的实验中变僵尸了。。。 现在新发现是 journalctl 里有不少 log ,这个没来得及看,明天看看有没有空看一下。 别在线等啊,我还有个活背着呢,你要有什么想法也可以告诉我,我来试试,再给你反馈结果😳 |
28
zwpaper OP @MartinWu kernel 的日志你说的是哪个位置?/proc/ 没找到比较特别的地方呢,就是僵尸的 proc stat 都是 Z , ppid 都是 1
|
29
zwpaper OP @jyf007 这是一个 ssh 工具?恕在下愚钝,没想到用法啊。。。
不过 Matt Johnston ,这个名字有点印象,好像这两天有搜到他报类似的 bug |
30
jyf007 2017-01-05 13:31:12 +08:00 via Android
@zwpaper 不,我是说换成这种路由器用到的,再装个 openssh-sftp-server 就行了
|
31
zwpaper OP @MartinWu 突然想起来,这个貌似有人去 centOS 报 bug 了,看看官方怎么回复吧
|
33
zwpaper OP |
34
MartinWu 2017-02-04 19:50:31 +08:00
@zwpaper 我的是 centos6 诶,貌似不是 systemd 导致的,而且 centos6 还是用 initd 的。。
|
36
okudayukiko0 2017-02-16 04:18:02 +08:00 via iPhone
不用 SSH ,改用串口 /VirtIO Console 或远程卡试试,不排除病毒
|
37
zwpaper OP @okudayukiko0 机器在机房,而且也已经重启了,病毒的话,也没有查到一些相关的说法……
|
38
MartinWu 2017-06-06 10:08:33 +08:00
我发现了一个点,可使用内存太少,导致 init 无法 fork 出线程来回收僵尸进程。
|