Skip to content

§ BENCHMARKS

Enforcement-Latenz, ehrlich gemessen

Governance funktioniert nur, wenn sie schnell genug ist, um im Anfragepfad zu liegen. Diese Seite dokumentiert, wie wir die Enforcement-Latenz und den Durchsatz von Execlave messen — und veröffentlicht die Zahlen, sobald sie nach dieser Methodik gemessen wurden.

Die unten aufgeführten Pattern-Tier- und Server-seitigen Enforce-Werte sind gemessen durch eingecheckte Test-Harnesses (siehe Methodik). Der semantische Tier und der skalierte Durchsatz sind als noch nicht veröffentlicht markiert — wir veröffentlichen nur Werte, die nach der Methodik auf dieser Seite gemessen wurden, niemals Schätzungen oder marketingtaugliche Rundungen.

§ ERGEBNISSE

Pattern-Tier — gemessen

In-Process-Latenz der Richtlinienauswertung (parse-gecachtes CEL), ohne Netzwerk- und Datenbankzeit.

p50 — In-Process-Richtlinienauswertung8,4 µs
p95 — In-Process-Richtlinienauswertung10,6 µs
p99 — In-Process-Richtlinienauswertung~21 µs
Durchsatz — ein Kern, ein Prozess~96.000 Auswertungsdurchläufe/Sek.

§ ERGEBNISSE

Server-seitige Enforce-Entscheidung — gemessen

Der reale PolicyService.enforcePreExecution-Pfad: Agentenstatusabfrage + Richtlinienladen + Auswertung, inklusive Datenbank, gegen eine lokale Postgres-Instanz. Ohne HTTP-/Auth-Rahmen und den modellbasierten semantischen Tier.

p50 — server-seitige Enforce-Entscheidung (inkl. DB)2,1 ms
p95 — server-seitige Enforce-Entscheidung (inkl. DB)2,9 ms
p99 — server-seitige Enforce-Entscheidung (inkl. DB)3,9 ms

§ ERGEBNISSE

Semantischer Tier & skalierter Durchsatz — ausstehend

Dominiert vom gewählten LLM (semantischer Tier) und der Worker-Skalierung (Durchsatz). Wird vor der Veröffentlichung auf repräsentativer Infrastruktur gemessen — niemals geschätzt.

Latenz des semantischen Tiers (modellbasierte Prüfungen)noch nicht veröffentlicht
Durchsatz, horizontal skaliert (Traces/Sek.)noch nicht veröffentlicht

§ METHODIK

Wie wir messen

Damit die veröffentlichten Zahlen reproduzierbar und über Releases hinweg vergleichbar sind.

Was die gemessenen Werte abdecken

Die veröffentlichten Zahlen beziehen sich auf den In-Process-Pattern-Tier: die Kosten der Auswertung eines Traces gegen eine Reihe von Richtlinien in der Enforcement-Engine (parse-gecachte CEL-Ausdrucksauswertung), ohne Netzwerk- und Datenbankzeit. Dies ist der Teil der Enforcement-Latenz, den Execlave direkt steuert; er wird als p50/p95/p99 angegeben, nicht als Durchschnitt, da Tail-Latenz für Governance-SLAs entscheidend ist.

Herkunft der Messung

Gemessen auf Node.js v22.20.0, ein Prozess, ein Kern, Caches vorgewärmt. Jeder „Durchlauf“ wertet einen repräsentativen Satz von 5 Ausdrucksrichtlinien (Kosten-, Größen- und Umgebungsvergleiche) gegen einen Trace über 200.000 Iterationen nach einem Warmup von 20.000 Iterationen aus. Das Test-Harness ist unter backend/scripts/bench-enforcement.ts eingecheckt und ruft denselben evaluateExpression-Pfad auf, den die Laufzeitumgebung verwendet — führen Sie es erneut aus, um diese Werte auf Ihrer eigenen Hardware zu reproduzieren.

End-to-End-Messung

Die server-seitigen Werte stammen vom realen PolicyService.enforcePreExecution-Pfad gegen eine laufende Postgres-Instanz — Agentenstatusabfrage, Richtlinienladen und Ausdrucksauswertung, jeder Datenbank-Roundtrip, den der SDK-Enforce-Endpunkt durchführt, unter der Least-Privilege-App-Rolle mit aktivierter Row-Level-Security. Gemessen auf Node.js v22.20.0 gegen eine lokale Postgres-Instanz (Netzwerk im Sub-Millisekundenbereich), 5.000 Aufrufe nach einem Warmup von 500 Aufrufen; das Test-Harness ist unter backend/scripts/bench-enforce-e2e.ts eingecheckt. Ausgeschlossen sind der HTTP-/Auth-Rahmen (Sub-Millisekundenbereich, kein „Enforcement“) und der modellbasierte semantische Tier. Datenbank-Roundtrips in der Produktion sind langsamer als auf localhost — betrachten Sie diese Werte daher als Untergrenze, nicht als Obergrenze.

Was NICHT in diesen Zahlen enthalten ist

Der semantische Tier (modellbasierte Prüfungen über den Python-Verarbeitungsdienst) hängt vom gewählten LLM ab und ist noch nicht veröffentlicht. Horizontal skalierter Durchsatz (Traces/Sek. über mehrere Worker) ist ebenfalls noch nicht veröffentlicht. Wir vermischen die Mikrosekunden-Auswertung, die Millisekunden-Server-Entscheidung und den modellbasierten Tier nicht zu einer einzigen Kennzahl, und wir schätzen die noch nicht gemessenen Tiers nicht.

Warum pro Tier, niemals vermischt

Pattern-Tier (In-Process, Mikrosekundenbereich) und semantischer Tier (modellbasiert, Millisekunden- bis Sekundenbereich) unterscheiden sich um Größenordnungen. Eine einzige „Enforcement-Latenz“-Kennzahl wäre irreführend, daher wird jeder Tier separat ausgewiesen und genau beschrieben, was er umfasst.

Messen Sie es in Ihrem eigenen Stack

Kostenloser Tarif verfügbar. Keine Kreditkarte erforderlich.

Benchmarks & Methodik | Execlave