常用Linux指令汇总

负载相关

  • w或者uptime都可以直接展示负载

uptime

09:32:14 up 695 days, 23:42, 2 users, load average: 0.00, 0.01, 0.05

w
09:32:00 up 695 days, 23:42, 2 users, load average: 0.00, 0.01, 0.05

其中load average分别对应过去的1分钟、5分钟、15分钟的负载均衡值

  • top

常用Linux指令汇总

常用Linux指令汇总

top 指令能够清晰的展示出系统的状态,而且是实时监控的       q:退出

Tasks 行展示的是目前的线程使用情况,要注意的是zombie,表示僵尸进程,不为0则表示有进程出现问题

Cpus 行展示了当前的CPU状态,us标识用户进程占用的cpu比例,sy代表内核进程占用的比例,id表示空闲的CPU百分比。Cpu(s)表示的是 所有用户进程占用整个cpu的平均值((Cpu0+Cpu1+Cpu2+Cpu3)/4),由于每个核心占用的百分比不同,所以按平均值来算比较有参考意义。而%CPU显示的是进程占用一个核的百分比,而不是整个cpu(12核)的百分比,有时候可能大于100,那是因为该进程启用了多线程占用了多个核心,所以有时候我们看该值得时候会超过100%,但不会超过总核数*100。

wa代表IO等待所占用的CPU时间的百分比,wa占用超多30%则表示IO压力大

Mem 当前内存的状态,total标识总共的,free代表剩余的,used代表已使用的 buffers是目录缓存

Swap行同Mem行,cached表示缓存,用户已打开的文件。如果Swap的used很高,则表示系统内存不足。

top下的指令:

  1. 1(指令):查看服务器有多少CPU,以及每个CUP的使用情况,一般情况下,服务器的合理负载是CPU核数*2,超过了就说明服务器的运行有一定的压力
  2. shift + "c" :进程按CPU使用率从大到小排序
  3. shift + "p" : 进程按内存使用率从大到小排序

 

linux 负载高,主要是CPU的使用、内存的使用、IO消耗三部分。load average 分别对应过去1分钟、5分钟、15分钟的负载平均值。load :是计算机干活多少的度量(WikiPedia:the system Load is a measure of the amount of work that a compute system is doing)

如何判断系统是否已经over Load :

对一般的系统来说,根据cpu数量去判断。如果平均负载始终在1.2以下,而你有2颗cup的机器。那么基本不会出现cpu不够用的情况。也就是Load平均要小于cpu的数量,一般是会根据15分钟那个load 平均值为首先。

grep -c 'model name' /proc/cpuinfo,直接返回cpu的总核心数

例如上图,cpu核数4,15分钟负载1.55<4,就是还没过载

  • nvidia-smi

常用Linux指令汇总

按列来看

第一栏的Fan:风扇转速,从0到100%之间变动,这个速度是计算机期望的风扇转速不是实际转速。有的设备不会返回转速,因为它不依赖风扇冷却。

第二栏的Temp:是温度。
第三栏的Perf:是性能状态,从P0到P12,P0表示最大性能,P12表示状态最小性能。
第四栏下方的Pwr:是能耗,上方的Persistence-M:是持续模式的状态,持续模式虽然耗能大,但是在新的GPU应用启动时,花费的时间更少,这里显示的是off的状态。
第五栏的Bus-Id是涉及GPU总线的东西,domain:bus:device.function
第六栏的Disp.A是Display Active,表示GPU的显示是否初始化。
第五第六栏下方的Memory Usage是显存使用率。
第七栏是浮动的GPU利用率。
第八栏上方是关于ECC的东西。
第八栏下方Compute M是计算模式。
 

更多的指令汇总详见[1]

 

参考:

[1] 常用Linux指令汇总(显卡|读写|编译|进程|用户|挂载)

[2] linux的负载情况查看