CrowdStrike erklärt, warum das fehlerhafte Update für Microsoft Windows, das Millionen betrifft, nicht richtig getestet wurde
Am Mittwoch veröffentlichte CrowdStrike Erkenntnisse aus seiner vorläufigen Überprüfung nach dem Vorfall und gab damit Aufschluss darüber, warum ein aktuelles Microsoft Windows-Update, das weitreichende Störungen verursachte, bei internen Tests nicht erkannt wurde. Dieser Vorfall, der Millionen Menschen weltweit betraf, hat kritische Mängel im Update-Validierungsprozess aufgezeigt.
CrowdStrike, ein führendes Unternehmen für Cybersicherheit, stellt für seinen Falcon-Agenten zwei verschiedene Arten von Updates für die Konfiguration von Sicherheitsinhalten bereit: Sensorinhalte und Rapid-Response-Inhalte. Sensorinhaltsupdates bieten umfassende Funktionen für die Reaktion auf Angreifer und die Erkennung langfristiger Bedrohungen. Diese Updates werden nicht dynamisch aus der Cloud abgerufen und durchlaufen umfangreiche Tests, sodass Kunden die Bereitstellung in ihren Flotten steuern können.
Im Gegensatz dazu besteht Rapid-Response-Content aus proprietären Binärdateien mit Konfigurationsdaten, um die Sichtbarkeit und Erkennung von Geräten zu verbessern, ohne den Code zu ändern. Dieser Inhalt wird von einer Komponente validiert, die die Integrität vor der Verteilung sicherstellen soll. Das am 19. Juli veröffentlichte Update, das sich gegen neuartige Angriffstechniken unter Verwendung benannter Pipes richtete, wies jedoch einen kritischen Fehler auf.
Der seit März verwendete Validator enthielt einen Fehler, der dazu führte, dass das fehlerhafte Update die Validierung bestand. Da keine zusätzlichen Tests durchgeführt wurden, wurde das Update bereitgestellt, was dazu führte, dass auf etwa 8,5 Millionen Windows-Geräten eine Blue Screen of Death (BSOD)-Schleife auftrat. Dieser Absturz war auf einen Speicherlesevorgang außerhalb der Grenzen zurückzuführen, der eine unbehandelte Ausnahme verursachte. Obwohl die Inhaltsinterpreterkomponente von CrowdStrike für die Verwaltung solcher Ausnahmen konzipiert ist, wurde dieses spezielle Problem nicht ausreichend behoben.
Als Reaktion auf diesen Vorfall hat sich CrowdStrike dazu verpflichtet, die Testprotokolle für Rapid-Response-Inhalte zu verbessern. Geplante Verbesserungen umfassen lokale Entwicklertests, umfassende Update- und Rollback-Tests, Stresstests, Fuzzing, Stabilitätstests und Schnittstellentests. Der Inhaltsvalidator wird zusätzlichen Prüfungen unterzogen und die Fehlerbehandlungsprozesse werden verstärkt. Darüber hinaus wird eine gestaffelte Bereitstellungsstrategie für Rapid-Response-Inhalte implementiert, die den Kunden eine bessere Kontrolle über diese Updates bietet.
Am Montag kündigte CrowdStrike einen beschleunigten Sanierungsplan für die von dem fehlerhaften Update betroffenen Systeme an. Bei der Wiederherstellung der betroffenen Geräte wurden bereits erhebliche Fortschritte erzielt. Der Vorfall gilt als einer der schwerwiegendsten IT-Ausfälle der Geschichte und führte zu erheblichen Störungen in verschiedenen Sektoren, darunter Luftfahrt, Finanzen, Gesundheitswesen und Bildung.
Im Nachhinein fordern die Führer des US-Repräsentantenhauses den CEO von CrowdStrike, George Kurtz, vor dem Kongress zur Beteiligung des Unternehmens an dem umfangreichen Ausfall auszusagen. Inzwischen wurden Organisationen und Benutzer auf eine Zunahme von Phishing-, Betrugs- und Malware-Versuchen aufmerksam gemacht, die diesen Vorfall ausnutzen.
Dieses Ereignis unterstreicht, wie wichtig robuste Test- und Validierungsprozesse in der Cybersicherheit sind, um derartige großflächige Störungen in Zukunft zu verhindern.