Las bondades de la redundancia

Ayer una de nuestras máquinas (que al estar dentro de nuestro cluster, da servicio a varios sites) empezó a cantar segmentation fault por aquí, segmentation fault por allá. No me sé los detalles pero creo que ni pudieron reiniciarla; fallo de la placa base probablemente (una vez sustituida la memoria y viendo que todo seguía igual).

El caso es que nadie se enteró (ningún usuario final, se entiende). La hemos sacado de nuestros deploys y en un par de días montaremos una máquina nueva para sustituirla. Pero mientras tanto, nos ha producido cero estrés y la plataforma ha seguido funcionando como debía. Que es el efecto deseado de tener una plataforma redundada.

Si tu site vive solo en un servidor, y este tiene un fallo de hardware, imaginaros el efecto de que a esa máquina le empiece a fallar el hardware.