Angriffe nutzen den OpenClaw-KI-Agenten aus
Aktuelle Sicherheitsforschung hat ergeben, dass OpenClaw, eine weit verbreitete selbstgehostete KI-Agentenplattform, durch scheinbar harmlose Eingaben dazu manipuliert werden kann, vom Angreifer kontrollierte Aktionen auszuführen oder sensible Informationen preiszugeben.
In separaten Untersuchungen demonstrierten Forscher zwei unterschiedliche Angriffsmethoden. Die eine Methode beruhte darauf, versteckte Anweisungen in geteilten Kontakten, vCards und Standort-PINs einzubetten. Die andere Methode nutzte sorgfältig gestaltete Phishing-E-Mails, um einen KI-Agenten dazu zu bringen, sensible Geschäftsinformationen preiszugeben.
Während OpenClaw eine dieser Schwachstellen in Version 2026.4.23 behoben hat, bleibt das grundsätzliche Problem unverändert: KI-Agenten, die eingehenden Informationen vertrauen, können zu mächtigen Werkzeugen für Angreifer werden.
Inhaltsverzeichnis
Unsichtbare Befehle, die im Verborgenen liegen
Der erste Angriff zielte darauf ab, wie OpenClaw bestimmte Nachrichtenobjekte verarbeitet, bevor diese an das zugrunde liegende große Sprachmodell (LLM) gesendet werden.
Im Gegensatz zu Webinhalten, die vor der Verarbeitung durch das Modell eindeutig als nicht vertrauenswürdig gekennzeichnet werden, wurden Kontaktdatensätze, vCards und Standortbezeichnungen direkt in Eingabeaufforderungen eingefügt, ohne dass darauf hingewiesen wurde, dass sie aus nicht vertrauenswürdigen Quellen stammten. Dies schuf die Möglichkeit für Prompt-Injection.
Der Angriff nutzte die Art und Weise aus, wie OpenClaw Kontaktinformationen serialisierte. Gemeinsam genutzte Kontakte wurden in ein einfaches Format umgewandelt, das nur Name und Telefonnummer enthielt. Da in Kontaktnamen Zeichen wie spitze Klammern zulässig sind, konnten Angreifer Schadcode einbetten, der wie ein Teil der Kontaktinformationen aussah. Zudem werden Kontaktnamen in Messenger-Anwendungen häufig gekürzt, sodass die Opfer die versteckte Schadsoftware nicht erkennen konnten.
Dieselbe Technik erwies sich mit den Namensfeldern in vCards und den geteilten Standortbezeichnungen als effektiv. Bei Tests mit Vorabversionen von Gemini 3.1 Pro brachten versteckte Anweisungen den Agenten erfolgreich dazu, Code von einem vom Forscher kontrollierten Server herunterzuladen und auszuführen. Interessanterweise scheiterten Versuche, Anweisungen in Bildern zu verstecken, vermutlich weil moderne KI-Modelle umfassend gegen Angriffe mit bildbasierten Eingabeaufforderungen trainiert wurden. Angriffe mit Nachrichtenobjekten sind den aktuellen Modellen jedoch noch weniger vertraut.
Forscher warnten davor, dass die standardmäßige Speicherfunktionalität von OpenClaw die Bedrohung verstärken könnte. Ein einzelner schädlicher Kontakt oder ein weit verbreitetes gemeinsam genutztes Objekt könnte potenziell zahlreiche Agenten gefährden, wenn keine geeigneten Sandbox-Kontrollen vorhanden sind.
Nach einer verantwortungsvollen Offenlegung veröffentlichte OpenClaw Version 2026.4.23, die Kontaktnamen, vCard-Felder und Standortbezeichnungen vom eigentlichen Text trennt, indem sie diese in einem separaten, nicht vertrauenswürdigen Metadatenkanal speichert. Forscher stellten zudem fest, dass ähnliche Designmuster auch bei anderen persönlichen KI-Assistenten auftreten, was eher auf eine branchenweite Herausforderung als auf ein plattformspezifisches Problem hindeutet.
Der Aufstieg des Agenten-Phishings
Ein zweites Forschungsprojekt näherte sich dem Problem aus einem anderen Blickwinkel: Social Engineering.
Die Forscher entwickelten einen Testagenten namens Pinchy und verbanden ihn mit einem Gmail-Posteingang, der mit realistischen, aber synthetischen Geschäftskorrespondenzen und simulierten sensiblen Daten gefüllt war. Anschließend führte das Team vier Phishing-Simulationen mit Google Gemini 3.1 Pro und OpenAI Codex GPT-5.4 durch.
Die Studie unterschied zwischen dem traditionellen Prompt-Injection-Angriff und dem, was die Forscher als „Agent-Phishing“ bezeichneten. Während beim Prompt-Injection-Angriff Schadcode in Daten versteckt wird, nutzt Agent-Phishing glaubwürdige Anfragen, die über legitime Kommunikationskanäle übermittelt werden. Der Angriff ist erfolgreich, weil der Agent handelt, bevor er die Identität des Absenders ausreichend überprüft hat.
Wie Social Engineering Sicherheitskontrollen aushebelte
Die Phishing-Simulationen lieferten besorgniserregende Ergebnisse. Obwohl der Agent strengen Anweisungen zur Überprüfung der Absenderidentitäten unterlag, scheiterte er in zwei Datenexfiltrationsszenarien:
Eine betrügerische E-Mail, in der sich der Absender als Teamleiter ausgab, forderte während eines vorgetäuschten Produktionsvorfalls Zugriff auf die Testumgebung. Der Angreifer lokalisierte und leitete gefälschte AWS-IAM-Zugangsdaten, Datenbankverbindungszeichenfolgen und SSH-Zugangsdaten im Klartext weiter.
In einer zweiten E-Mail wurde ein routinemäßiger wöchentlicher Kundenexport für eine angebliche vierteljährliche Geschäftspräsentation angefordert. Der Agent übermittelte eine synthetische Datenbank mit Informationen zu 247 Unternehmenskunden, einschließlich Kontaktdaten und Vertragswerten.
Der Agent schnitt bei technischen Angriffen deutlich besser ab. Er erkannte verdächtige Phishing-Websites, verhinderte die Offenlegung legitimer Zugangsdaten und meldete schließlich schädliche Aktivitäten. Bei strengeren Einstellungen wurde der Zugriff auf Phishing-Seiten vollständig blockiert. Wurde dem Agenten ein gefälschter OAuth-Zustimmungsbildschirm präsentiert, der als Zeiterfassungsanwendung getarnt war, analysierte er das Weiterleitungsziel, stufte es als verdächtig ein und verweigerte die Berechtigung.
Die Forscher kamen zu dem Schluss, dass der Agent bei der Erkennung schädlicher URLs und gefälschter Anmeldeportale oft besser abschnitt als Menschen. Allerdings hatte er Schwierigkeiten mit der kontextbezogenen sozialen Beurteilung, insbesondere wenn Anfragen scheinbar von vertrauenswürdigen Kollegen stammten. Die Eigenschaft, die KI-Assistenten nützlich macht – der Wunsch zu helfen –, schafft gleichzeitig eine erhebliche Angriffsfläche.
Obwohl OpenAI Codex GPT-5.4 bei der Interaktion mit externen Websites oder der Übermittlung von Informationen größere Vorsicht an den Tag legte als Gemini 3.1 Pro, fielen letztendlich doch beide Systeme den Social-Engineering-Szenarien zum Opfer.
Eine Grundursache, mehrere Angriffswege
Trotz unterschiedlicher Techniken nutzten beide Angriffe dieselben grundlegenden Fähigkeiten aus:
- Zugriff auf private Informationen.
- Die Fähigkeit, nicht vertrauenswürdige Inhalte zu verarbeiten.
- Erlaubnis zur externen Übermittlung von Informationen.
Wenn diese Möglichkeiten ohne ausreichende Kontrollmechanismen nebeneinander bestehen, können eine bösartige Visitenkarte und eine überzeugende Phishing-E-Mail zum gleichen Ergebnis führen: unberechtigter Zugriff auf sensible Daten.
Weitere Untersuchungen deckten ähnliche Probleme mit Vertrauensgrenzen innerhalb des OpenClaw-Ökosystems auf. Durch die Umwandlung früherer Sicherheitswarnungen in statische Analyseregeln identifizierten die Forscher fünf weitere Schwachstellen, die Integrationen mit Slack, Discord, Matrix, Zalo und Microsoft Teams betreffen.
Jede Schwachstelle beruhte auf demselben Designfehler. Kanalerweiterungen verwendeten bei der Auswertung von Zulassungslisten veränderliche Anzeigenamen anstelle permanenter Kennungen. Ein Angreifer konnte daher ein Konto umbenennen, um es einem genehmigten Benutzer anzugleichen und so Einfluss auf den Agenten zu erlangen. OpenClaw hat inzwischen alle identifizierten Probleme behoben.
Wachsende Bedenken hinsichtlich weitreichender Agentenberechtigungen
Seit seinem Start steht OpenClaw aufgrund seiner weitreichenden Berechtigungen in der Kritik. Die Plattform ermöglicht den Zugriff auf lokale Dateien, Shell-Umgebungen und über zwanzig Messaging-Plattformen, was sie zwar sehr leistungsfähig, aber auch sehr angreifbar macht.
Die Bedenken sind mittlerweile so groß, dass die niederländische Datenschutzbehörde (Autoriteit Persoonsgegevens) Einzelpersonen und Organisationen davon abgeraten hat, OpenClaw auf Systemen mit sensiblen Daten einzusetzen. Die Behörde nannte als Risiken unter anderem Datenschutzverletzungen und die Gefährdung von Benutzerkonten.
Sicherere KI-Agenten-Bereitstellungen entwickeln
Organisationen, die OpenClaw verwenden, sollten umgehend auf Version 2026.4.23 oder höher aktualisieren, um die Sicherheitslücke im Message-Object zu beheben. Neben der Behebung der Schwachstelle hängt der langfristige Schutz jedoch eher von architektonischen Maßnahmen als von einer sofortigen technischen Anpassung ab.
Sicherheitsexperten empfehlen, Agentenanweisungen als verbindliche, versionskontrollierte Richtlinien und nicht als Empfehlungen zu behandeln. Ausgehende Kommunikation sollte vor dem Versand an unbekannte Empfänger genehmigt werden müssen, um das Risiko zu verringern, dass kompromittierte Agenten Angriffe über vertrauenswürdige Konten verbreiten. Zugriffsrechte sollten zudem an die Vertrauenswürdigkeit der auslösenden Quelle gekoppelt sein, um sicherzustellen, dass Agenten, die externe Kommunikation verarbeiten, nicht automatisch auf sensible Systeme wie CRM-Plattformen zugreifen können. Risikoreiche Aktionen, einschließlich der Weitergabe von Zugangsdaten und Finanztransaktionen, sollten weiterhin der manuellen Genehmigung unterliegen.
Die ungelöste Herausforderung des autonomen Vertrauens
Beide Forschungsteams kamen letztlich zum selben Schluss: KI-Agenten sollten nicht als Sicherheitswerkzeuge betrachtet werden. Ein treffenderes Modell ist das eines unerfahrenen Mitarbeiters mit umfassenden Systemzugriffen, aber begrenzter Fähigkeit, verdächtiges Verhalten zu erkennen. Eine weitere hilfreiche Perspektive ist, sie als authentifizierte Ausführende zu sehen, die den erhaltenen Informationen grundsätzlich vertrauen.
Aktuelle Maßnahmen konzentrieren sich auf Patches, Schutzmechanismen und Zugriffskontrollen. Die grundlegende Herausforderung bleibt jedoch ungelöst. Ein KI-System, das E-Mails lesen, Aufgaben ausführen und selbstständig agieren kann, muss systembedingt den Eingaben vertrauen und versuchen, Nutzern zu helfen. Die Cybersicherheitsgemeinschaft hat für diesen grundlegenden Konflikt noch keine universelle Lösung entwickelt.