学校的cluster system本来有一个Ganglia的cpu用量监测系统
但Ganglia最近坏掉无法即时监测远端电脑的cpu使用状况
cluster是使用"PBS"来派送任务
不知道有没有替代的指令 可以监测node01~node20,
哪一个node的任务还没跑完?
因为有的node可能硬件有些问题, 跑得比别人慢
我以前用Ganglia去监测很容易就知道是哪颗node特别慢
然后下次在script指定node的时候就会刻意跳过他
不知道除了Ganglia外 有哪些是不需要root也能执行的指令
让我知道哪个node执行特别慢 导致整个计算任务倍那个node给拖累
感谢~~~~~