Show processes CPU – Show processes memory sorted

Comandos muy validos para usar en distintas topologías, vamos a ver un ejemplo en una topologías en Stack de CISCO.

En esta tenemos un problema de caídas de interface o perdidas de datos, también un flpaeo de puerto stack entre dos switches, pero derivado de un fallo interno de los equipos debido a estar demasiado forzada la cpu durante un periodo de tiempo muy largo. Tras la sustitución revisamos que no siga pasando lo mismo y estos dos comandos no valen para ello.

En mi ejemplo hay cinco Switches 3750 de 48 bocas, modelo que se empezo a vender en el 2004 con versión POE lo que los hace ideales para telefonía IP. Debido a vlan de voz ip y las vlan de datos en la actualidad pueden estar muy forzados en el backplane del SW y dan ciertos problemas comentados mas arriba. Estos errores en gran medida son  acusados en momentos de alto tráfico.

En este ejemplo tengo la pila de 5 sw, conectada por dos troncales contra un CPD (centro de proceso de datos) pero solo uno esta habilitado ya que multi-spaning tree (MLS)  bloquea uno de ellos a fin de evitar bucles.

Con el comando show processses CPU history puedo ver unas gráficas que me devuelven valores a los 60sg, a cada 60 minutos o a cada 72 horas.

La tabla devuelta se interpreta:

  • La columna es el % de consumo de la CPU.
  • La fila son los sg, minutos u horas, se lee de arriba abajo es decir en intervalos de 5. Si vemos un 1 y debajo un 5 en formato columna, seran 15 minutos o 15 segundos o 15 horas, dependiendo de la escala, la almohadilla nos indica la media.

Nosotros en la gráfica vamos a ver ciertos picos del 100% pudiendo ser el problema del flapeo de puertos o la perdida de paquetes. La solución principal sería actualizar la IOS, recomendando CISCO una SE10 a fecha de escribir este post, lo que no esta nada mal pensando que es tecnología fabricada en el 2004, probablemente tengan una SG4 y tras comprobarlo podemos ver que es así, vamos actualizar de una SG4 a una SG10 por lo que muy seguros no eran, en las empresas siempre se olvidan de actualizar la electrónica de red, incluidos BANCOS y para muestar un botón como se suele decir …

SHprocessescpuDel minuto 10 al 15 vemos un 100% en el uso de la CPU.

Fijaros en los * que llegan al 100 en la columna de la izquierda indicándonos es el valor de % de ocupación de la CPU del sw, en la inferior la gráfica nos indica que se produce del minuto 10 al 15  (last 60 minutes).

Podemos intentar averiguar que procesos son los que están ocupando tanta CPU haciendolo de manera inmediata, yo tarde en reaccionar un poco, sera cosa de la edad el estar llegando a los 40 me pone enfermo :), pero para hacerlo lanzamos el comando:

Show processes memory sorted, con sorted conseguimos ordenar la salida basándonos en la memoria usada por proceso. Sorted también lo podiamos usar con el comando anterior, la verdad hay una variedad que no os muestro pero la tenéis en la web oficial de cisco sobre cada equipo, que es donde hay que mirar, la experiencia os dira eso, nosotros los profesionales no aprendemos de la nada, por ejemplo en el mio sería esta:

http://www.cisco.com/c/en/us/td/docs/switches/lan/catalyst3750/software/troubleshooting/cpu_util.html

 

También debemos ir viendo los log que se producen, si estamos por telnet no olvideis habilitar el terminal monitor. Si teneis alguna duda podeis preguntarme por aquí. Como estoy por consola con un show log puedo ver si hay puertos que flapean.

Hemos visto este ejemplo para daros una visión de que los switches pueden perder tráfico y fallar debido a altas cargas de tráfico para lo que no fueron diseñados en su día, un fallo que se produce en equipos en stack antiguos para cargas muy elevadas de tráfico de voz y datos.

Seguramente los fallos de produzcan si se produce algún corte o fallo y los telefonos ip se intentan registrar todos a la vez, llegando la CPU al 100% mas si es por caida de algún equipo del stack al tener este que unirse nuevamente contra el master.

En el próximo post, veremos como actualizar una IOS machando la actual sin falta de borrala antes, se suele hacer por falta de espacio.

 

 

 

About the author: miguel