Uptime Nivel III: Datacenter a prueba de fallos

Para todos aquellos que trabajamos en el área de Datacenter, hablar de uptime o niveles de disponibilidad es parte del quehacer diario desde siempre…

Para todos aquellos que trabajamos en el área de Datacenter, hablar de uptime o niveles de disponibilidad es parte del quehacer diario desde siempre; de todos los centros de datos que he tenido la oportunidad de conocer, jamás me crucé con un equipo técnico o de infraestructura que no viviera preocupado de que el data estuviera “siempre operativo”.

Claro, en esta parte podríamos inferir que para conseguir una infraestructura TI confiable no basta con la intención de hacer bien las cosas, si no que hacerlas; y es en esta parte cuando las certificaciones se vuelven muy útiles, ya que nos permiten entender por qué una disponibilidad del 99,98% sobre uptime de infraestructura es tan apreciada. Pero ¿qué es exactamente lo que se valida una certificadora?, eso depende de la que evaluemos:

  1. Rated III – Estándar ANSI/TIA-942: Este estándar elaborado por colaboración ANSI/TIA para diseño y certificación de centros de datos, certifica como Rated III a salas que cumplen el siguiente principio: “Infraestructura de sitio de mantenimiento simultáneo Un centro de datos que tiene componentes de capacidad redundantes y múltiples rutas de distribución independientes que sirven al equipo informático. Por lo general, solo una ruta de distribución sirve al equipo informático en cualquier momento. El sitio se puede mantener al mismo tiempo, lo que significa que todos los componentes de la capacidad, incluidos los elementos que forman parte de la ruta de distribución, pueden eliminarse / reemplazarse / repararse de manera planificada sin interrumpir las capacidades de las TIC para el usuario final. Tiene protección contra la mayoría de eventos físicos”.
  2. Tier III en Sistema de calificación Tier – Uptime Institute: UI como empresa privada define este nivel de disponibilidad en su propio estándar desde 1996, el cual detalla: “Un centro de datos de Tier III se puede mantener simultáneamente con componentes redundantes como un diferenciador clave, con rutas de distribución redundantes para atender al entorno crítico. A diferencia de los Tier I y Tier II, estas instalaciones no requieren el cierre del sitio cuando el equipo necesita mantenimiento o sustitución. Los componentes del Tier III se añaden a los componentes del Tier II para que cualquier área pueda cerrarse sin afectar la operación de TI”.
  3. Nivel III de la Norma ICREA Std. 131-2019: ICREA, como Asociación internacional de profesionales expertos en salas de cómputo con más de 20 años en operación, certifica como Nivel III S-WCQA, a topologías que aportan un 99,9% de disponibilidad bajo el siguiente principio: “Configuración con redundancia que permite darle mantenimiento sin suspender la operación”, el detalle requerido para cada uno de los componentes mencionados se describe en el artículo nro. 410.4.6. de la norma.

En pocas palabras, el requerimiento de nivel III para un datacenter que garantice la disponibilidad mediante mantenimiento concurrente de sus sistemas. Es por ello que más allá de las certificaciones, el diseño e implementación de arquitecturas resilientes es una buena práctica de muchos actores en esta industria.

¿Cómo conocer el tiempo de indisponibilidad de un Datacenter?

Existe la percepción, a mi parecer equivocada, de que la indisponibilidad de un sistema es el tiempo de downtime que tendrá el datacenter, por lo que cada nueve que logremos después de la coma se vuelve considerablemente valioso al momento de garantizar la confiabilidad. Sin embargo, todos sabemos que el riesgo cero no existe, por lo que la indisponibilidad, que corresponde a un porcentaje de riesgo estimado sobre las características de la infraestructura, es un factor que certificado no, siempre estará presente.

La disponibilidad de un sistema, es la disponibilidad esperada de cada una de sus partes multiplicadas entre sí; de esta forma podemos graficar que son los componentes que conforman la infraestructura, y la confiabilidad asociada a cada uno de ellos los que definen el riesgo de indisponibilidad:

“La disponibilidad de un Sistema, es el % de tiempo que estará en condiciones de funcionamiento, lo que determina su nivel confiabilidad”

Redundancia “N”

Cuando del resultado de este ejercicio nuestro riesgo es alto, una forma de resistencia que nos permite garantizar la disponibilidad del sistema en caso de falla del componente es la redundancia “N”:

De este modo cuando replicamos alguno de los componentes del sistema, podemos optimizar nuestros cálculos reduciendo el tiempo de indisponibilidad:

Vale decir, cada componente duplicado reduce a la mitad el tiempo de indisponibilidad, por lo que agregar componentes redundantes es eficiente sólo hasta el punto en el cual el costo de la duplicación de éstos, supera a las pérdidas estimadas en el plan de riesgo en caso de downtime; es por ello que la inversión de utilizar espacio en un datacenter World Class de nivel III o superior, es eficiente sólo mientras no sea más alto que duplicar el site o proveedor del que dependen nuestros servicios.

Entonces, ¿cuáles son esos componentes N?, ¿qué arquitecturas y equipos utilizan? o ¿en qué momento está realmente garantizada la operación confiable?…

¡Todo eso y mucho más en el siguiente post!

¿Buscando VPS de máxima velocidad?

Chatea con nosotros y cotiza en línea los VPS SSD+NVME más rápidos y robustos del país. Revisa el benchmark de rendimiento entre IXMetro-PowerHost y los principales proveedores del mundo.

Related Posts
Total
0
Share