§ DOCUMENTATION
Red-Team Gate
Machen Sie adversariale Resilienz zur Voraussetzung für Autonomie. Führen Sie die execlave-test-Probe-Suite aus, zeichnen Sie einen red_team_score auf und blockieren Sie die autonome Beförderung jedes Agenten, der unter 0,9 abschneidet.
Warum Autonomie an Resilienz koppeln
Die Beförderung eines Agenten in die Stufe autonomous entfernt die menschlichen Freigabe-Kontrollpunkte, die vor unbeabsichtigten Aktionen schützen. Ohne einen formalen adversarialen Test beruht diese Beförderungsentscheidung vollständig auf dem Verhalten im Idealfall — der Agent wurde nie systematisch auf Anfälligkeit für Injection, Jailbreak-Vektoren oder Exfiltrationspfade geprüft.
Das Red-Team Gate macht Resilienz-Nachweise zur harten Voraussetzung. Bevor ein Agent autonomous erreichen kann, muss er eine strukturierte adversariale Probe-Suite bestehen und einen red_team_score von mindestens 0,9 tragen. Dies verwandelt die autonome Beförderung von einer Ermessensentscheidung in ein verifizierbares, reproduzierbares Gate — eines, das CI bei jeder Codeänderung erzwingen kann.
Die execlave-test-Suite
execlave test --agent <id> führt die integrierte adversariale Probe-Suite gegen den angegebenen Agenten aus. Die Suite deckt drei Angriffskategorien ab — Prompt Injection, Jailbreak und Exfiltrations-Probes — und berechnet einen Resilienz-Score in [0, 1] als aggregierte Bestehensquote über alle Probes. Der Score und eine Aufschlüsselung pro Probe werden nach stdout ausgegeben.
Der Befehl beendet mit Code 0, wenn der Score den Schwellenwert erreicht oder überschreitet, und mit 1, wenn nicht — wodurch er direkt als CI-Gate-Schritt verwendbar ist. Das Hinzufügen von --record persistiert den Score am Agenten über PATCH /api/v1/agents/:id/red-team-score.
| Probe-Kategorie | Was sie testet |
|---|---|
| Prompt Injection | Überschreiben von Systemanweisungen über Inhalte im Benutzer-Turn |
| Jailbreak | Umgehung von Richtlinien-Beschränkungen durch indirekte Formulierungen |
| Exfiltration | Elicitation sensiblen Kontexts durch indirekte Prompts |
Der Schwellenwert 0,9 & Beförderungs-Durchsetzung
Wenn FF_REDTEAM_GATE aktiviert ist, prüft der Autonomie-Dienst den red_team_score des Agenten bei jeder Beförderungsanfrage, die auf die Stufe autonomous zielt. Ist der Score nicht vorhanden oder unter 0,9, wird die Beförderung mit HTTP 403 und einer Meldung blockiert, die angibt, dass das Gate fehlgeschlagen ist.
| Zielstufe | Gate-Verhalten (Flag AN) |
|---|---|
| supervised | Kein Gate — red_team_score nicht erforderlich |
| operator_assisted | Kein Gate — red_team_score nicht erforderlich |
| autonomous | Blockiert (HTTP 403), wenn Score fehlt oder < 0,9; bestanden, wenn Score ≥ 0,9 |
Wenn FF_REDTEAM_GATE aus ist (Standard), ist die Beförderung zu autonomous nicht betroffen — das bisherige Verhalten bleibt vollständig erhalten.
Scores aufzeichnen — CLI & API
--record, um den Score zu persistieren; lassen Sie es weg für einen Probelauf, der nur den Exit-Code beeinflusst. Der Score wird am Agenten als red_team_score gespeichert (JSONB — Score-Wert plus Metadaten).# Probes ausführen und Score am Agenten aufzeichnen (Exit ungleich null, wenn Score < 0.9)execlave test --agent my-agent --record # Probes lokal ausführen, ohne aufzuzeichnen (CI-Pull-Request-Prüfung)execlave test --agent my-agent # Lokalen Exit-Code-Schwellenwert überschreiben (beeinflusst das serverseitige Gate nicht)execlave test --agent my-agent --min-score 0.85curl -X PATCH https://api.execlave.com/api/v1/agents/agt_01j.../red-team-score \ -H "Authorization: Bearer $EXECLAVE_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "score": 0.94, "metadata": { "probe_suite": "built-in-v1", "run_id": "run_01j...", "recorded_at": "2026-06-02T11:00:00Z" } }'Das Gate aktivieren (FF_REDTEAM_GATE)
Das Red-Team Gate wird durch das Feature-Flag FF_REDTEAM_GATE gesteuert, das standardmäßig aus ist. Mit ausgeschaltetem Flag ist die Autonomie-Beförderung gegenüber dem bisherigen Verhalten völlig unverändert. Durch das Bereitstellen der Migration werden keine bestehenden Agenten-Workflows beeinflusst.
Aktivieren Sie das Flag, sobald Sie execlave test --record für jeden Agenten ausgeführt haben, den Sie zu autonomous befördern möchten. Agenten, die noch nicht getestet wurden, scheitern bei der Beförderung mit einem klaren „Score fehlt"-Fehler, der Sie auffordert, die Suite vor dem Fortfahren auszuführen.