Un centro de procesamiento de datos, centro de cálculo, centro de cómputo, o centro de datos (data center), es un lugar físico en el que se concentran los recursos de computación/conectividad de una o varias organizaciones.
Evidentemente, el papel que este tipo de infraestructuras juegan en nuestra vida diaria es crucial, pues, de una manera u otra, los datos que nuestras empresas o nosotros mismos manejamos día a día, dependen de ellos de alguna manera.
Data center y alarmas
Gestionarlos de manera eficiente es, sin duda, una prioridad. En este sentido, cualquier aspecto que nos permita mejorar esa gestión redundará en un beneficio inmediato. Y por supuesto, minimizar los errores, fallos o eventos que puedan interrumpir su normal funcionamiento, es de vital importancia.
Gestionar las alarmas
Hablamos de gestionar de manera adecuada, entre otros, las alarmas.
¿Lo estamos haciendo bien?
¿Cómo lo podemos saber?
Podemos decir sin temor a equivocarnos, que una infraestructura como un data center tiene un problema con las alarmas ,si alguna o varias de estas circunstancias se dan lugar:
-
- Incluso en condiciones normales, hay muchas alarmas. El panel de alarmas es muy ruidoso, pequeñas alteraciones en el funcionamiento habitual generan un número importante de alarmas. Perturbaciones más importantes causan auténticas avalanchas de alarmas ante las que los panelistas poco pueden hacer, salvo reconocerlas sin parar o bajar el volumen del altavoz para silenciarlas y así poder concentrarse en averiguar qué está ocurriendo.
- Se ha experimentado alguna parada imprevista y/o el daño de algún equipo como consecuencia de una alarma no detectada en el sistema de monitorización.
- Para averiguar qué provocó una parada imprevista de un equipo, hemos tenido que “bucear” entre los cientos de alarmas recogidas en el log de alarmas.
- Hay alarmas ante las que no sabemos cómo actuar. Las alarmas no son lo suficientemente informativas: descripciones poco claras, no indican el tipo de riesgo del que alertan (seguridad, medio ambiente, calidad), no informan acerca de cómo corregir la situación sobre la que alertan, etc.
- Suenan algunas alarmas que no exigen ninguna actuación, simplemente reconocerlas para que dejen de sonar.
- Cuando la alarma suena, ya no podemos hacer nada: el equipo ya se ha parado.
- Algunas alarmas llevan activadas mucho tiempo. Parte de la pantalla de resumen de alarmas está siempre ocupada por estas alarmas, y, si aparece alguna nueva, puede pasar desapercibida entre ellas.
- Hay demasiadas falsas alarmas, lo que hace que el personal no confíe en el sistema de alarmas. Existe un alto riesgo de confundir una alarma real con una de las falsas alarmas habituales.
- La gestión de la configuración de las alarmas es pobre. No hay control de quién, cuándo ni por qué ajustó un determinado valor de alarma o la deshabilitó. Los valores de alarma no se han modificado, aunque sí han cambiado las condiciones de operación. La actualización de la documentación asociada a las alarmas y/o de los gráficos de operación no es la adecuada.
- No sabemos cuántas alarmas silenciadas tenemos en cada momento, ni desde cuándo están silenciadas.
- La priorización de las alarmas es inconsistente, alarmas similares tienen prioridades diferentes. Hay demasiadas alarmas “críticas” o “muy importantes”, o bien todas las alarmas tienen la misma prioridad.
¿Con cuántas de estas situaciones te identificas?