README
22.07.2024 · News / Tech

Weltweiter CrowdStrike IT-Ausfall – was ist passiert?

Während die Bevölkerung von Bern auf dem Hausberg am Gurtenfestival feierte, kam es weltweit zu einem beispiellosen IT-Ausfall. 8,5 Millionen Windows-Geräte bekamen am 19. Juli 2024 zwischen 06:09 Uhr und 07:27 Uhr (Schweizer Zeit) einen «Bluescreen of Death», stürzten ab und konnten nicht mehr gestartet werden.

CrowdStrike's weltweiter IT-Schlamassels Bluescreen

Was ist passiert?

CrowdStrike Falcon® ist eine «Endpoint detection and response» Software, welche Geräte wie Laptops und Server vor Cybersecurity-Angriffen bewahren soll. Mittels Echtzeit-Analysen prüft die Software, ob das Gerät Opfer eines Angriffs ist und blockiert und meldet den Angriff.

Ähnlich wie bei einer Antiviren-Software erhält die Software regelmässig «Content-Updates». Dies ist kein Update der Logik des Programms selbst, sondern dient dazu, dass aktuelle Ereignisse durch die Software erkannt werden können. Diese werden viel häufiger ausgeliefert, als eigentliche Software-Updates und dienen dazu, dass Firmen möglichst früh vor allen bekannten Angriffen geschützt werden.

Im Content-Update vom 19. Juli wurde in der Logik, welche verantwortlich zur Prüfung der Kommunikation zwischen verschiedenen Prozessen und Systemen (IPC, Named Pipes) zuständig ist, ein Update eingespielt. Dieses wurde erweitert, um neue Kommunikationswege festzustellen, welche diverse Cyberangriffe aktuell nutzen (Quelle).

In diesem Content-Update schlich sich ein «Null-Pointer» Fehler ein (Quelle). Diese Fehler geschehen, wenn ein Programm auf etwas verweisen möchte, was nicht existiert. Somit stürzt das Programm ab, weil es an einen unbekannten Ort möchte. Und da CrowdStrike tief im Microsoft Kernel arbeitet, stürzt das gesamte Betriebssystem ab.

Was waren die Auswirkungen?

Dieser Ausfall führte unter anderem zu Folgendem:

  • Im Bundesstaat Alaska, Arizona, New Hampshire und Ohio ist die Notfallnummer 911 ausgefallen (Quelle).
  • Viele Airlines sind gegroundet. Insgesamt wurden über 5000 Flüge gestrichen, was ca. 4,6 % aller Flüge entspricht (Quelle).
  • In England konnten Hausärzte und Hausärztinnen nicht auf Patientenaktien, Termine oder Rezepte zugreifen, da das zuständige System ausgefallen ist. Viele Arztpraxen nahmen nur noch Notfälle an. (Quelle).
  • Das Universitätsklinikum Schleswig-Holstein und diverse andere Spitäler sagten alle anstehenden Operationen ab (Quelle).
  • Der Zahlungsverkehr war weltweit eingeschränkt, da viele Banken ebenfalls betroffen waren (Quelle).
  • In Schweden (Quelle) und Belgien (Quelle) konnten keine Zug-Tickets gekauft werden.
  • und vieles weitere

Der Ausfall von der Notrufnummer 911 ist höchst kritisch – direkt oder indirekt wird dies wahrscheinlich dazu geführt haben, dass Menschenleben zu Schaden kamen.

Wie werden die Computer repariert?

Bugs in Software und kurzfristig nötige Reparaturen nach einem Update existieren und kommen regelmässig vor. Dabei ist meist jedoch nur eine sehr spezifische Konfiguration betroffen (wie beim Windows Server 2022 Oktober 2023 Update), oder die Software stürzt ab, nicht aber das ganze Betriebssystem.

Da das ganze Betriebssystem auf sehr vielen Geräten abgestürzt ist, können IT-Spezialist:innen kaum mehr automatisiert darauf antworten: wenn Windows nicht einmal mehr startet, muss fast in jedem Fall manuell eingegriffen werden. Da mittlerweile ein Grossteil der Festplatten verschlüsselt sind, muss zudem beim manuellen Eingriff auch noch einen 48-Zeichen langer Schlüssel eingegeben werden, um die Festplatte zu entschlüsseln. Somit ist man schnell pro Gerät 15–30 Minuten mit dem IT-Support am Telefon – weltweit mehrere Millionen mal.

Einzige Automatisierungsmöglichkeiten: mit Endpoint Management Softwares wie Intel vPro (Quelle), welche auch ohne laufendes Betriebssystem einen Remote-Support zulassen.

Wie konnte das passieren?

Diese Frage steht 3 Tage nach dem Vorfall im Zentrum. Es ist offensichtlich, dass die Qualitätskontrollen bei CrowdStrike vollständig versagt haben, da dieser Fehler hätte auffallen müssen. CrowdStrike gelang schon Ende Juni 2024 (3 Wochen vor dem desaströsen Update) in die Presse, als Endgeräte plötzlich massiv langsamer wurden. Ein Content-Update löste aus, dass einer der Prozessoren des Endgeräts plötzlich eine hundertprozentige Auslastung hatte (Quelle). Dies konnte nur durch einen Neustart des betroffenen Geräts gelöst werden, was beispielsweise für Server oft nur mit vorheriger Ankündigung eines Wartungsfensters möglich ist. Diese beiden gravierenden Updates innerhalb von nur einem Monat deuten auf massive Lücken in der Qualitätskontrolle eines globalen, wichtigen IT-Konzerns hin.

Dennoch muss festgehalten werden, dass es ebenfalls in der IT-Strategie von Betreibern kritischer Infrastrukturen desaströs ist, einen externen Dienstleister automatische Updates einspielen zu lassen. CTO’s von diesen Unternehmen müssen sich die Frage gefallen lassen, ob es korrekt ist, eine Firma automatische Updates auf Endgeräte kritischer Infrastrukturen lassen zu machen. Jedoch sind es auch diese, welche von den CISO’s Anforderungen an Sicherheits-Zertifizierungen gestellt bekommen und diese umsetzen müssen.

Auch unterstütze ich die Aussagen von Joachim Selzer des Chaos Computer Club, dass derzeit im Markt eine Konzentration auf wenige Anbieter zu einer Art Klumpenrisiko führt (Quelle). Wir sehen dies übrigens nicht nur in der Bedrohungsabwehr, sondern auch beispielsweise mit dem E-Mail Angebot von Microsoft 365.

CrowdStrike Meme 2

Was lernen wir daraus?

Erneut wird vor Augen geführt, wie kritisch eine funktionierende IT-Infrastruktur für unser Zusammenleben ist. Die Auswirkungen auf die Schweiz waren sehr gering – am offensichtlichsten war der Ausfall des Flughafens Zürich durch die Skyguide. Auch einige Systeme von Axpo und BKW wurden lahmgelegt. In Australien – wo durch die Datumsgrenze der Kalendertag als Erstes beginnt und das Update als Erstes erhalten haben – waren die Auswirkungen aber deutlich spürbarer. Viele Supermärkte und Banken mussten beispielsweise schliessen. Die Kosten für diese Ausfälle und die Reparaturarbeiten werden viele Milliarden betragen, wovon wahrscheinlich kaum etwas durch eine Versicherung gedeckt ist.

Die Geschäftsleitungen und IT-Verantwortlichen der betroffenen Firmen werden die Update-Strategie hinterfragen müssen. Eine Diversifizierung der eingesetzten Software wird durch den Vorfall automatisch kommen: Die Aktien des Unternehmens fielen um ca. 12 % und einige Grosskunden werden zur Konkurrenz abwandern (zum Beispiel Cyberason oder SentinelOne).

Für CrowdStrike ist der Vorfall – wie auch für die Kunden – ein absolutes Desaster. Das Unternehmen wird wohl überleben, kann aber ein Wachstum wahrscheinlich vorerst ausschliessen. Vorher werden aber massive Investitionen in die Qualitätssicherung notwendig. Und Firmen müssen sich fragen, wie sie die Betriebssicherheit und eine schnelle Update-Strategie gleichzeitig sicherstellen können.

team-ueli-avatar

Möchtest du Unterstützung zur Implementierung einer sinnvollen IT-Strategie in deinem Unternehmen?

Ueli Banholzer
Geschätsführer

ueli@whatwedo.ch

031 511 26 27

Weiterstöbern

Business / Tech
Die Relevanz der Barrierefreiheit

Unser Gast-Autor René Stalder verrät in diesem Beitrag die Relevanz der Barrierefreiheit für Ihr Softwareprojekt.

News
Best of March / April 2022

In unserer regelmässigen Blog-Serie «Best of» fassen wir die interessantesten Neuigkeiten aus unserem Umfeld zusammen.

Get in touch with whatwedo

Adresse

whatwedo GmbH
Speichergasse 35
3011 Bern
Schweiz

Kontakt
Inhalt
ExpertiseReferenzenTeamKontaktDatenschutz
Member of