21 juli 2024

Vrijdag 19 juli 2024: een wereldwijd digitaal infarct

In de ochtend gaat mijn telefoon diverse keren. Er is een grote wereldwijde computerstoring. Of ik weet wat er aan de hand is, en voor diverse media een duiding kan geven.

Het geval wil dat ik deze ochtend bezig ben met het oplossen van een lokale computerstoring. Als securityspecialist is dat niet mijn dagelijks werk, maar nood breekt wet. Ik verwijs de media door naar collega’s. Na deze klus ga ik eens even mijn gangen na, wat is er toch allemaal aan de hand?

Geen cyberaanval, maar een Crowdstrike update

Het probleem is al snel duidelijk. Windows machines die een bepaald product van Crowdstrike gebruiken, hebben een update binnengehaald die de computer volledig doet crashen. Gevolg: wereldwijd zijn miljoenen computers (naar schattingen 8,5 miljoen) niet te gebruiken en de gevolgen zijn niet te overzien:

Ziekenhuizen die minder of geen patiënten kunnen helpen
Winkels die geen betalingen kunnen verwerken
Luchtverkeer dat met geannuleerde vluchten en vertragingen te maken krijgt
Bedrijven die hun werk niet kunnen doen

Deze hele situatie doet mij terugdenken aan 2017. In dat jaar was er sprake van een massale ransomware aanval, waardoor ook toen havens, ziekenhuizen, luchthavens en betaalterminals helemaal platlagen.

Het grote verschil tussen toen en nu is, dat er nu geen sprake is van een cyberaanval en dat Crowdstrike al vrij snel met een workaround komt. Niet dat daarmee de problemen direct en/of snel opgelost zijn, maar een begin van een herstel kan wel worden gemaakt. Bij een cyberaanval kan dit herstel weken tot maanden duren, en is de ramp niet te overzien.

Zijn we te afhankelijk geworden? Ik denk van wel!

Of het nu gaat om een wereldwijde IT-storing of een massale cyberaanval zoals in 2017, het laat ons wel pijnlijk duidelijk zien hoe afhankelijk we zijn geworden van onze digitale infrastructuur, en hoe ontwricht we zijn als deze niet beschikbaar is.

Tegelijkertijd moet ik ook toegeven dat ik geen pasklare oplossing weet. Digitaal werken, ‘just in time delivery’, onderdeel zijn van een keten, en daarmee grote onderlinge afhankelijkheden van elkaar is de realiteit waarin we leven. Dat draai je ook niet even terug.

Reservesystemen dan?

Bij een incident als deze struikelen allerlei experts over elkaar heen om duiding te geven en te vertellen hoe het dan wel had gemoeten. Met dit artikel doe ik daar trouwens ook gewoon aan mee. Ik kan in deze kwestie alleen geen kant en klare oplossingen aanreiken, alleen een aantal vragen stellen waar we collectief over na moeten denken. Waar zijn we mee bezig, en moeten we wel op deze manier verder gaan?

Een van de eerste vragen die (deels terecht) naar voren komt is: zijn er dan geen reservesystemen? En kunnen we die niet gewoon opstarten? Dat ligt echter nog niet zo eenvoudig. Hoe groter en complexer een IT-omgeving is, hoe even groot de complexiteit is om een reservesysteem aan te brengen.

Bovendien is dat heel kostbaar en heb je ook de mankrachten nodig die dat kunnen beheren. In steeds meer bedrijven zijn dit soort kundige systeembeheerders echter wegbezuinigd, want met alle migraties naar de cloud hadden we die niet meer nodig, toch?

Als je wel kiest voor reservesystemen, moet je ook goed afwegen hoe die eruit gaan zien. Als je namelijk een tweede set identieke systemen zou gebruiken, dan bestaat de kans dat het probleem wat de oorzaak was, daar ook zijn intrede doet. Bij dit soort kwesties komt het neer op een goede risico versus impact afweging tezamen met een kosten versus baten analyse.

Hoe ga je verder bij een incident?

Ik denk dat het veel zinvoller is om na te denken: hoe werken we verder als dit nog eens gebeurt? Nogmaals, nu ging het om een storing waar redelijk snel een workaround voor kwam maar de volgende keer is het een cyberincident waarbij dat veel langer gaat duren. Om dan nog maar te zwijgen van alle data die verloren is gegaan etc.

Welke hard- en/of software je ook gebruikt, dit soort incidenten kunnen altijd optreden. Nu was het Crowdstrike in combinatie met Windows, maar dit had ook MacOS en Linux kunnen treffen met tal van andere producten.

We moeten dus veel breder gaan nadenken over wat te doen als systemen (langdurig) niet beschikbaar zijn. Ook hier kunnen we kijken naar de luchtvaart. Zij kunnen als het moet volledig terugvallen op ‘pen en papier’ en alsnog doorgaan het vliegbewegingen. Ja, het zei met flinke vertragingen etc. maar het kan wel.

Zorg voor een bedrijfscontinuïteitsplan

Een BCP (Business Continuity Plan) is een document dat beschrijft hoe een bedrijf of organisatie omgaat met een ernstige verstoring of calamiteit. Het doel van een BCP is om personeel, vitale processen en primaire bedrijfsprocessen te beschermen en ervoor te zorgen dat deze blijven functioneren tijdens en na een incident. Daarom beschrijft het welke procedures en instructies gevolgd moeten worden om operationeel te blijven tijdens een ernstige verstoring.

Zie je website van het Digital Trust Center voor meer informatie over dit onderwerp:
https://www.digitaltrustcenter.nl/nis2/hoe-maak-je-een-bedrijfscontinuiteitsplan

Mocht je een keer willen sparren over jouw BCP? Laten we er dan eens samen naar kijken.