Skip to content
Zurück zur Startseite

§ DOCUMENTATION

Red-Team Gate

Machen Sie adversariale Resilienz zur Voraussetzung für Autonomie. Führen Sie die execlave-test-Probe-Suite aus, zeichnen Sie einen red_team_score auf und blockieren Sie die autonome Beförderung jedes Agenten, der unter 0,9 abschneidet.

§ 01

Warum Autonomie an Resilienz koppeln

Die Beförderung eines Agenten in die Stufe autonomous entfernt die menschlichen Freigabe-Kontrollpunkte, die vor unbeabsichtigten Aktionen schützen. Ohne einen formalen adversarialen Test beruht diese Beförderungsentscheidung vollständig auf dem Verhalten im Idealfall — der Agent wurde nie systematisch auf Anfälligkeit für Injection, Jailbreak-Vektoren oder Exfiltrationspfade geprüft.

Das Red-Team Gate macht Resilienz-Nachweise zur harten Voraussetzung. Bevor ein Agent autonomous erreichen kann, muss er eine strukturierte adversariale Probe-Suite bestehen und einen red_team_score von mindestens 0,9 tragen. Dies verwandelt die autonome Beförderung von einer Ermessensentscheidung in ein verifizierbares, reproduzierbares Gate — eines, das CI bei jeder Codeänderung erzwingen kann.

§ 02

Die execlave-test-Suite

execlave test --agent <id> führt die integrierte adversariale Probe-Suite gegen den angegebenen Agenten aus. Die Suite deckt drei Angriffskategorien ab — Prompt Injection, Jailbreak und Exfiltrations-Probes — und berechnet einen Resilienz-Score in [0, 1] als aggregierte Bestehensquote über alle Probes. Der Score und eine Aufschlüsselung pro Probe werden nach stdout ausgegeben.

Der Befehl beendet mit Code 0, wenn der Score den Schwellenwert erreicht oder überschreitet, und mit 1, wenn nicht — wodurch er direkt als CI-Gate-Schritt verwendbar ist. Das Hinzufügen von --record persistiert den Score am Agenten über PATCH /api/v1/agents/:id/red-team-score.

Probe-KategorieWas sie testet
Prompt InjectionÜberschreiben von Systemanweisungen über Inhalte im Benutzer-Turn
JailbreakUmgehung von Richtlinien-Beschränkungen durch indirekte Formulierungen
ExfiltrationElicitation sensiblen Kontexts durch indirekte Prompts
§ 03

Der Schwellenwert 0,9 & Beförderungs-Durchsetzung

Wenn FF_REDTEAM_GATE aktiviert ist, prüft der Autonomie-Dienst den red_team_score des Agenten bei jeder Beförderungsanfrage, die auf die Stufe autonomous zielt. Ist der Score nicht vorhanden oder unter 0,9, wird die Beförderung mit HTTP 403 und einer Meldung blockiert, die angibt, dass das Gate fehlgeschlagen ist.

ZielstufeGate-Verhalten (Flag AN)
supervisedKein Gate — red_team_score nicht erforderlich
operator_assistedKein Gate — red_team_score nicht erforderlich
autonomousBlockiert (HTTP 403), wenn Score fehlt oder < 0,9; bestanden, wenn Score ≥ 0,9

Wenn FF_REDTEAM_GATE aus ist (Standard), ist die Beförderung zu autonomous nicht betroffen — das bisherige Verhalten bleibt vollständig erhalten.

§ 04

Scores aufzeichnen — CLI & API

Führen Sie die Probe-Suite aus und zeichnen Sie das Ergebnis mit einem einzigen CLI-Befehl auf. Verwenden Sie --record, um den Score zu persistieren; lassen Sie es weg für einen Probelauf, der nur den Exit-Code beeinflusst. Der Score wird am Agenten als red_team_score gespeichert (JSONB — Score-Wert plus Metadaten).
# Probes ausführen und Score am Agenten aufzeichnen (Exit ungleich null, wenn Score < 0.9)execlave test --agent my-agent --record # Probes lokal ausführen, ohne aufzuzeichnen (CI-Pull-Request-Prüfung)execlave test --agent my-agent # Lokalen Exit-Code-Schwellenwert überschreiben (beeinflusst das serverseitige Gate nicht)execlave test --agent my-agent --min-score 0.85
Um einen Score direkt aufzuzeichnen — etwa aus einem externen Red-Team-Tool — verwenden Sie den PATCH-Endpunkt:
curl -X PATCH https://api.execlave.com/api/v1/agents/agt_01j.../red-team-score \  -H "Authorization: Bearer $EXECLAVE_API_KEY" \  -H "Content-Type: application/json" \  -d '{    "score": 0.94,    "metadata": {      "probe_suite": "built-in-v1",      "run_id": "run_01j...",      "recorded_at": "2026-06-02T11:00:00Z"    }  }'
§ 05

Das Gate aktivieren (FF_REDTEAM_GATE)

Das Red-Team Gate wird durch das Feature-Flag FF_REDTEAM_GATE gesteuert, das standardmäßig aus ist. Mit ausgeschaltetem Flag ist die Autonomie-Beförderung gegenüber dem bisherigen Verhalten völlig unverändert. Durch das Bereitstellen der Migration werden keine bestehenden Agenten-Workflows beeinflusst.

Aktivieren Sie das Flag, sobald Sie execlave test --record für jeden Agenten ausgeführt haben, den Sie zu autonomous befördern möchten. Agenten, die noch nicht getestet wurden, scheitern bei der Beförderung mit einem klaren „Score fehlt"-Fehler, der Sie auffordert, die Suite vor dem Fortfahren auszuführen.

§ 06

Häufig gestellte Fragen

Welche Probes führt die execlave-test-Suite aus?
Die integrierte Suite deckt mehrere Kategorien adversarialer Probes ab: Prompt-Injection-Angriffe (Versuche, Systemanweisungen über Inhalte im Benutzer-Turn zu überschreiben), Jailbreak-Probes (Versuche, Richtlinien-Beschränkungen durch indirekte Formulierungen zu umgehen) und Exfiltrations-Probes (Versuche, sensiblen Kontext durch indirekte Elicitation offenzulegen). Jede Probe wird unabhängig bewertet; der Gesamt-Resilienz-Score ist die aggregierte Bestehensquote über alle Probes in [0, 1].
Kann ich die Test-Suite in CI ausführen, ohne den Score aufzuzeichnen?
Ja. Lassen Sie das Flag --record weg, um die vollständige Probe-Suite auszuführen, den Score auszugeben und mit einem Exit-Code ungleich null zu beenden, wenn der Score unter dem Schwellenwert liegt — ohne etwas im Agentendatensatz zu persistieren. Dies ist das empfohlene Muster für Pull-Request-Prüfungen. Fügen Sie --record nur hinzu, wenn Sie den Agenten in Richtung autonomer Beförderung bringen möchten.
Was passiert, wenn FF_REDTEAM_GATE aus ist?
Wenn das Feature-Flag FF_REDTEAM_GATE deaktiviert ist (Standard), bleibt der Pfad der Autonomie-Beförderung gegenüber dem bisherigen Verhalten unverändert — das Feld red_team_score wird vollständig ignoriert. Agenten, die bereits einen aufgezeichneten Score tragen, behalten ihn; der Wert hat lediglich keine Auswirkung auf das Beförderungs-Gating, bis das Flag aktiviert wird.
Kann ich einen benutzerdefinierten Resilienz-Schwellenwert unter 0,9 festlegen?
Der Schwellenwert von 0,9 ist der vom Autonomie-Dienst erzwungene Systemstandard. Wenn Ihre Bereitstellung einen anderen Wert erfordert, kann er über die Umgebungskonfiguration angepasst werden. Mit dem CLI-Flag --min-score können Sie den Exit-Code-Schwellenwert lokal für Entwicklungstests überschreiben, ohne das serverseitige Beförderungs-Gate zu ändern.
Red-Team Gate — Execlave Docs