[问题] cluster的cpu用量监测系统坏掉,替代?

楼主: peter308 (pete)   2016-10-28 17:48:13
学校的cluster system本来有一个Ganglia的cpu用量监测系统
但Ganglia最近坏掉无法即时监测远端电脑的cpu使用状况
cluster是使用"PBS"来派送任务
不知道有没有替代的指令 可以监测node01~node20,
哪一个node的任务还没跑完?
因为有的node可能硬件有些问题, 跑得比别人慢
我以前用Ganglia去监测很容易就知道是哪颗node特别慢
然后下次在script指定node的时候就会刻意跳过他
不知道除了Ganglia外 有哪些是不需要root也能执行的指令
让我知道哪个node执行特别慢 导致整个计算任务倍那个node给拖累
感谢~~~~~
作者: kerwinhui (kezza)   2016-10-28 18:12:00
用pdsh叫每个node回报你user的process,不过这很土还有你是PBS Pro, OpenPBS, Torque?如果你的 PBS 还在当然可以用 qstat …
作者: highfish (博班菜鸟)   2016-10-30 18:23:00
qstat无误
楼主: peter308 (pete)   2016-11-25 15:04:00
感谢1F解惑 喔

Links booklink

Contact Us: admin [ a t ] ucptt.com