Crowdstrike: hacer las cosas (más o menos) bien y aún así...
24 Jul 2024 Your Name💻 La actualización de un componente de ciberseguridad ha causado un fallo global en Micorsoft que ha afectado a gran número de compañías.
— Aragón Noticias (@AragonNoticias_) July 19, 2024
En Aragón, se han producido afecciones en el Salud, se han suspendido algunos juicios y se han cancelado vuelos.
▶️ https://t.co/ds4JsNUkyP pic.twitter.com/JXAonHqRRt
Estoy hablando aquí desde el punto de vista del usuario: trabajas para una empresa, contratas los productos que todo el mundo usa/recomienda, y aún así se lía y se te complica un viernes cualquiera. Lo de más o menos lo digo porque todo es matizable y mejorable, claro.
El viernes fue un día con mucha actividad por el fallo que se produjo el fallo en la actualización de Crowdstrike (se puede ver en su web Preliminary Post Incident Review (PIR): Content Configuration Update Impacting the Falcon Sensor and the Windows Operating System (BSOD).
Nos llamaron de Aragón TV para dar unas primeras impresiones sobre lo (poco) que sabíamos en ese momento y lo sacaron en las noticias.
Se puede ver en El fallo informático global ha causado afecciones en el Salud y se han suspendido varios juicios. También en la web de las noticias Aragón Noticias 1 - 19/07/2024 13:59.
En este caso, poco que decir: un fallo en la actualización ha provocado fallos en los clientes que usan el producto de Crowdstrike en los equipos con sistemas de Microsoft. Además, una llamada a la diversidad, porque si hubiera más sistemas operativos en uso, muchas marcas de productos como este, el impacto habría sido menor.
En todo caso, me interesa para este sitio hablar del proceso completo, tal y como lo viví (desde la barrera).
Nos depertábamos con un inicio del follón, donde algunas empresas españolas tenían algún problema indeterminado:
Esperemos que sea por el calor...https://t.co/R1FEQlEtLN
— fernand0 (@fernand0) July 19, 2024
Aunque rápidamente veíamos que la cosa podía ser más grave, porque los australianos (y otros países de la zona) ya habían alertado del problema:
Not just everywhere, but every*one* (nearly). This is massive https://t.co/0xVlOrMj4m
— Troy Hunt (@troyhunt) July 19, 2024
Y también veíamos como algunas organizaciones más cercanas también estaban afectadas.
Más cerca.https://t.co/PpSY5H4qvT
— fernand0 (@fernand0) July 19, 2024
Los medios de comunicación españoles empezaban a hablar de la cosa, aunque algunos estaban bastante despistados.
Hablaban de un problema de Azure.
Mientras tanto en España:
— fernand0 (@fernand0) July 19, 2024
Azure? https://t.co/Nz5i3Ymieh
O, directamente, de Microsoft (que algo tenía que ver, desde luego), pero no era una caída suya.
Caída de Microsoft.https://t.co/U2IV0pprBA
— fernand0 (@fernand0) July 19, 2024
Un poco más tarde, llegaban los efectos a EEUU (básicamente cuando es por la mañana y la gente empieza a trabajar, aunque hay quien no para por la noche).
— fernand0 (@fernand0) July 19, 2024
Al mediodía la empresa empezaba a hablar del problema:
Ya se han despertado en EEUU.https://t.co/bJ5Dzy3IGN
— fernand0 (@fernand0) July 19, 2024
Y veíamos que algunas empresas tenían que dar servicio con medios rudimentarios. Fundamentalmente, porque lo tienen previsto y reaccionan ante los problemas.
Todo está previsto.https://t.co/6dnN3MENNx
— fernand0 (@fernand0) July 19, 2024
Algunas ideas:
- Las cosas pueden fallar y fallarán, tal vez deberías tener previstos mecanismos para recuperarte cuando eso suceda, o poder proporcionar tus servicios de otra forma.
- La diversidad es buena, las personas que no eran clientes de Crowdstrike o de Microsoft no se vieron afectadas en sus instalaciones. Buen momento para recordar a Dan Geer y sus avisos sobre los monocultivos informáticos.
También es un buen día para recordar a Dan Geer y el tema de la diversidad tecnológica.
— fernand0 (@fernand0) July 19, 2024
"Shared Risk at the National Scale"https://t.co/g4uR8T6XCv
- Como decíamos arriba, los responsables han hecho ‘bien’ su trabajo (recordando aquella vieja frase de “Nobody gets fired for buying IBM”, no despiden a nadie por contratar a IBM, que hoy se actualizaría con otras marcas y empresas), y aún así las empresas se han visto afectadas. Hay que planificar que estas cosas pueden suceder y ser capaces de reaccionar, o tal vez establecer diferentes niveles de actualización para distinos equipos en distintos momentos por lo que pueda suceder.
Finalmente, un pequeño homenaje al personal de IT que se ha visto obligado a reaccionar a una situación sobre la que tenían poco control pero en la que todo el mundo les estaba mirando.
Ánimo al personal de TI, que parece que va a ser un viernes intenso.... 🤞🏼🤞🏼🤞🏼
— fernand0 (@fernand0) July 19, 2024
Esta entrada es un resumen de lo que publicamos ese mismo día y el siguiente en:
- Hilo de Twitter, que empieza con Esperemos que sea por el calor…
- Entrada en LinkedIn, el sábado, con un resumen preliminar, y que empieza, Ayer fue un día muy curioso…
- La parte de la TV la he puesto en En las noticias de Aragón TV hablando del incidente de Crowdstrike