Facebook explica cómo comenzó su apagón del 4 de octubre

Facebook explica cómo comenzó su apagón del 4 de octubre

2021-10-06 0 Por ljxih


Tras la interrupción masiva del servicio del lunes que cortó todos sus servicios, Facebook lanzó un entrada en el blog detallando lo que pasó ayer. Según Santosh Janardhan, vicepresidente de infraestructura de la empresa, la interrupción comenzó con lo que debería haber sido un mantenimiento de rutina. Ayer, se emitió una orden que se suponía que evaluaría la disponibilidad de la red troncal que conecta todas las instalaciones de TI dispares de Facebook. En cambio, la orden eliminó involuntariamente estas conexiones. Janardhan dice que un error en el sistema de auditoría interna de la empresa no impidió correctamente que se ejecutara la orden.

Este problema provocó un problema secundario que, en última instancia, convirtió el apagón de ayer en el incidente internacional en el que se ha convertido. Cuando los servidores DNS de Facebook no pudieron conectarse a los principales centros de datos de la empresa, dejaron de publicar la información de enrutamiento del Protocolo de puerta de enlace fronteriza (BGP) que todos los dispositivos de Internet necesitan para conectarse a un servidor.

«El resultado final fue que nuestros servidores DNS se volvieron inaccesibles a pesar de que todavía estaban operativos», dijo Janardhan. “Hizo imposible que el resto de Internet encontrara nuestros servidores. «

Como aprendimos a mitad de camino ayer, lo que empeoró una situación que ya era difícil fue que la interrupción impidió que los ingenieros de Facebook se conectaran a los servidores que necesitaban reparar. Además, la pérdida de la funcionalidad de DNS significó que no podían usar la mayoría de las herramientas internas de las que dependen para investigar y solucionar problemas de red en circunstancias normales. Esto significó que la empresa tuvo que enviar personal físicamente a sus centros de datos, una tarea complicada por las protecciones físicas que tenía implementadas en esas ubicaciones.

Leer también  El último Aston Martin de James Bond llega a "Rocket League"

“Son de difícil acceso y, una vez dentro, el hardware y los enrutadores están diseñados para ser difíciles de modificar incluso cuando se tiene acceso físico a ellos”, dijo Janardhan. Una vez que pudo restaurar su columna vertebral, Facebook tuvo cuidado de no volver a encender todo a la vez, ya que el aumento de la potencia y las demandas de TI pueden haber provocado más fallas.

“Cada fracaso como este es una oportunidad para aprender y mejorar, y hay mucho que aprender de él”, dijo Janardhan. “Después de cada problema, grande o pequeño, analizamos detenidamente cómo podemos hacer que nuestros sistemas sean más resistentes. Este proceso ya está en marcha.

Todos los productos recomendados por Engadget son seleccionados por nuestro equipo editorial, independiente de nuestra casa matriz. Algunas de nuestras historias incluyen enlaces de afiliados. Si compra algo a través de cualquiera de estos enlaces, es posible que ganemos una comisión de afiliado.



Source link