Presupongo que ahora ya todo el mundo sabe que los servicios en la Nube de Amazon cayeron hace unos días, quise escribir esta entrada cuando sucedió pero las vacaciones que estaba disfrutando se comieron mi tiempo de trabajo (vaya que estaba de vacaciones y lo empecé, pero no lo terminé porque preferí ir a tomar unas cañas con los amigos que por algo hago vacaciones).
Que hayan caído los servicios que ofrece Amazon en la Nube podría no ser noticia sino fuera que es uno de los proveedores más grandes a nivel mundial y que la caída afectó a servicios tan populares como Foursquare, HootSuite, CoTweet, Quora, Ow.ly, Menéame, ReddIt y un centenar de servicios conocidos más. Concretamente cayó Amazon Elastic Compute Cloud E2.
Aunque el titular parezca un poco alarmista no creo que se deba huir de la Nube (Cloud Computing), ni SaaS, ni nada de esto por esta caída. Lo que sí debemos tener en cuenta es lo que implica utilizar la Nube:
- Tenemos menos control. Esto no tiene porque ser malo, hay más ejemplos de malas prácticas en CPDs internos que en centros en la Nube (al menos de momento), pero debemos ser conscientes que no podemos definir todos los parámetros de seguridad ni acceso nosotros, debemos fiarnos de la empresa a la que hemos contratado los servicios.
- Debemos tener un plan B. Debemos saber qué haremos si la empresa a la que hemos contratado los servicios no cumple (o cierra), así que debemos tener una copia de seguridad de todo y tener previsto un plan de actuación para cuando esa empresa no cumpla el SLA o no nos dé el servicio que esperamos.
- La Nube es tecnología configurada, administrada y probada por humanos. A lo que me refiero es que tarde o temprano fallará, alguien habrá cometido o cometerá un error y habrá una caída. Debemos saber qué haremos ante esa situación, si la aceptaremos como un riesgo asumible o vamos a tener un plan de contingencia para entonces.
Lo que nos lleva a las responsabilidades del departamento de IT tanto cuando trabajamos con la Nube como cuando no:
- Tener todos los huevos en una misma cesta no es la mejor opción. Todo depende de qué disponibilidad queramos tener, pero cuanto más heterogéneo sea nuestro sistema más difícil será que falle por completo, aunque más fácil será que nunca esté al 100%.
- Comprobaciones periódicas. El peor momento para descubrir que las copias se dejaron de hacer es el día que se necesitan.
- Hacer pruebas de fallos. Los simulacros se hacen porque sirven, no para hacer perder el tiempo a nadie ni como hobby.
Debemos ser conscientes que en esta vida no hay nada eterno, por tanto sea cual sea la solución que adoptemos debemos ser conscientes que fallará. Lo único que debemos decidir es qué porcentaje de fallos estamos dispuestos a tener y qué haremos cuando ocurran. Una disponibilidad del 99% del tiempo es que 3 días y medio al año ese sistema estará caído.
Fuente: Adhoc
