Bitácora de fernand0 Cambiando de aires

Crowdstrike: hacer las cosas (más o menos) bien y aún así...

Estoy hablando aquí desde el punto de vista del usuario: trabajas para una empresa, contratas los productos que todo el mundo usa/recomienda, y aún así se lía y se te complica un viernes cualquiera. Lo de más o menos lo digo porque todo es matizable y mejorable, claro.

El viernes fue un día con mucha actividad por el fallo que se produjo el fallo en la actualización de Crowdstrike (se puede ver en su web Preliminary Post Incident Review (PIR): Content Configuration Update Impacting the Falcon Sensor and the Windows Operating System (BSOD).

Nos llamaron de Aragón TV para dar unas primeras impresiones sobre lo (poco) que sabíamos en ese momento y lo sacaron en las noticias.

Se puede ver en El fallo informático global ha causado afecciones en el Salud y se han suspendido varios juicios. También en la web de las noticias Aragón Noticias 1 - 19/07/2024 13:59.

En este caso, poco que decir: un fallo en la actualización ha provocado fallos en los clientes que usan el producto de Crowdstrike en los equipos con sistemas de Microsoft. Además, una llamada a la diversidad, porque si hubiera más sistemas operativos en uso, muchas marcas de productos como este, el impacto habría sido menor.

En todo caso, me interesa para este sitio hablar del proceso completo, tal y como lo viví (desde la barrera).

Nos depertábamos con un inicio del follón, donde algunas empresas españolas tenían algún problema indeterminado:

Aunque rápidamente veíamos que la cosa podía ser más grave, porque los australianos (y otros países de la zona) ya habían alertado del problema:

Y también veíamos como algunas organizaciones más cercanas también estaban afectadas.

Los medios de comunicación españoles empezaban a hablar de la cosa, aunque algunos estaban bastante despistados.

Hablaban de un problema de Azure.

O, directamente, de Microsoft (que algo tenía que ver, desde luego), pero no era una caída suya.

Un poco más tarde, llegaban los efectos a EEUU (básicamente cuando es por la mañana y la gente empieza a trabajar, aunque hay quien no para por la noche).

Al mediodía la empresa empezaba a hablar del problema:

Y veíamos que algunas empresas tenían que dar servicio con medios rudimentarios. Fundamentalmente, porque lo tienen previsto y reaccionan ante los problemas.

Algunas ideas:

  • Las cosas pueden fallar y fallarán, tal vez deberías tener previstos mecanismos para recuperarte cuando eso suceda, o poder proporcionar tus servicios de otra forma.
  • La diversidad es buena, las personas que no eran clientes de Crowdstrike o de Microsoft no se vieron afectadas en sus instalaciones. Buen momento para recordar a Dan Geer y sus avisos sobre los monocultivos informáticos.
  • Como decíamos arriba, los responsables han hecho ‘bien’ su trabajo (recordando aquella vieja frase de “Nobody gets fired for buying IBM”, no despiden a nadie por contratar a IBM, que hoy se actualizaría con otras marcas y empresas), y aún así las empresas se han visto afectadas. Hay que planificar que estas cosas pueden suceder y ser capaces de reaccionar, o tal vez establecer diferentes niveles de actualización para distinos equipos en distintos momentos por lo que pueda suceder.

Finalmente, un pequeño homenaje al personal de IT que se ha visto obligado a reaccionar a una situación sobre la que tenían poco control pero en la que todo el mundo les estaba mirando.

Esta entrada es un resumen de lo que publicamos ese mismo día y el siguiente en: