Puntos de fallo
Ayer, por una serie de catastróficas desdichas, un enorme data center de Telvent, ubicado en Alcobendas, sufrió un fallo eléctrico y le pegó un bocado notable a buena parte de la «webesfera» nacional. Entre los afectados, que se quedaron fuera de la red durante medio día, están Weblogs SL, realmadrid.com, los abonados de ya.com (por un fallo en sus DNS) y muchos otros. Yo personalmente, aunque estoy en ONO y podía navegar sin muchos problemas, sí noté que algunas páginas (en particular las de la USE) no se me abrían (en adslzone.net hablan de que a RedIRIS también le afectó el desastre, así que esa fue probablemente la causa).
Uno de los mayores argumentos a favor de usar un datacenter externo en lugar de montar uno propio es que, en teoría, sale más barato y es más fiable. Y lo cierto es que la mayor parte de las veces es así, aunque sólo sea por el lujo de tener un equipo vigilando las 24 h la salud de los servidores. El problema, lógicamente, es que ante un evento de este tipo (el twitter de WSL explica que fue porque el fallo en la instalación eléctrica obligó a apagar el aire acondicionado) uno sólo tiene la opción de morderse las uñas y esperar nerviosamente a que se solucione, salvo que tenga ganas de ir a Alcobendas a pegarle voces a los sysadmins (que tampoco tienen culpa de nada, la mayoría de las veces).
Siendo ventajista, se puede pensar que los fallos de este tipo se pueden evitar o mitigar distribuyendo copias por varios sitios, físicamente ubicados en lugares distintos, y usando algún mecanismo de distribución para ir mandando a la gente a un servidor que esté funcionando. El problema, aparte de que obviamente es más caro tener cuatro servidores que uno, es que eso tampoco protege del todo. Por muy bien replicados que estén los datos, siempre le puede caer un rayo al ordenador que controle la distribución, o pasar algo más creativo. Hace poco, por ejemplo, Amazon S3, quizá el servicio de almacenamiento remoto más sofisticado que se despacha, se cayó con todo el equipo durante varias horas por un error que el sistema no estaba preparado para aceptar, y no ayudó tener un porrón de servidores distribuidos por el globo. Incluso Google, que normalmente se tiene por último bastión de la fiabilidad en la red, sufrió un problema de este tipo con GMail que hizo temblar de pánico a buena parte de los profesionales de IT estadounidenses durante un buen rato (este artículo de WebMonkey tiene un título muy ilustrativo: Gmail se cae, el mundo se acaba).
Se pueden poner ejemplos y contraejemplos hasta aburrir, pero la verdad última es que, por muy bien montada que esté la infraestructura y mucho dinero que se le eche, es prácticamente imposible tener un sistema que esté preparado para cualquier eventualidad. Dicho de otra forma, nadie puede garantizar al 100% que una página o aplicación web estará siempre disponible para todo el mundo, sin tener caídas de ningún tipo. A efectos prácticos, siempre existe algún punto de fallo único (previsto o imprevisto), y en algún momento acabará cayendo. (Y siempre habrá frikis, como este menda, al que le fascine hablar sobre ellos…)
Es interesante pensar en esto desde el punto de vista del diseño de la red; por lo que se me ocurre así de repente, creo que el eslabón más vulnerable está siempre relacionado con el servidor DNS. En Internet, todos los servidores se identifican mediante una dirección IP formada por cuatro números; el servidor DNS sería la «guía de teléfonos» de Internet, que lleva de nombres como blog.andvaranaut.es a una dirección IP como 82.194.73.156. Por una serie de motivos (que, sobre todo, consisten en que no existe una guía única, sino que está distribuida en pedacitos por toda la red), el DNS es un sistema que no está nada bien preparado para encajar la caída de alguna de sus partes (entre otras cosas, ya que tiene un largo historial de problemas de seguridad, alguno muy espectacular). Hay ciertas soluciones que ayudan, y muchos cráneos sesudos trabajando en mejoras al DNS, pero el hecho es que el DNS es un diseño que corresponde a otra época, cuando Internet era una colección de gente amable. Una inocencia que se empezó a perder el 3 de noviembre de 1988 y que, hoy día, nos parece bastante lejana cuando abrimos el correo y comprobamos que la mitad de los emails nos ofrecen alargarnos el pene de forma fantástica o hacernos ricos trayendo diamantes de Nigeria.
De todas formas, la moraleja a llevarse es que, como acabará pasando más tarde o más temprano, hay que encajar estos batacazos con buen humor. A unas malas, no hay que olvidar que hay cosas que hacer lejos del ordenador, y que también hay mucho que merece la pena en el mundo real…
PD: (este Lolcat es mío, desde que vi la foto en The Big Picture sabía que tenía que hacerlo 😀 )
Colgado: septiembre 24th, 2008 en General.
Tags: caída, data center, dns, fail, fallos, fiabilidad, informática, internet, lolcats, redundancia
Pues sí, tuvieron un fallo eléctrico que hizo que los aires acondicionados petaran… y cuando la sala de máquinas llegó a 50 grados (LOL) de temperatura, decidieron que era mejor apagar los equipos, vaya a ser….
RedIRIS cayó entera, salvo un nodo en Canarias, hacia el que redirigieron TODO el tráfico de las universidades… así que imaginaos como iba la red ayer… una miaja lenta 😉
De todas formas por la tarde se solucionó, no fue TAN grave 😉 pero obviamente, la frase que lo resume todo es:
EPIC FAIL xD
50 grados, qué agradable xD El tío que tuviera que entrar en la habitación a apagar los equipos iría en gayumbos xDDD