Kern des Patterns
Supervisor Agent ist ein Pattern, bei dem ein separater Agent die Ausfuehrung kontrolliert: er prueft vorgeschlagene Aktionen, wendet Regeln an und entscheidet, ob fortgesetzt werden darf.
Wann sinnvoll: wenn kritische Aktionen vor dem Fortsetzen separat per Policy freigegeben werden muessen.
Statt dem Worker bedingungslos zu vertrauen, macht Supervisor:
- prueft jede kritische Aktion
- vergleicht sie mit Policies
- gibt Entscheidung zurueck:
approve,revise,blockoderescalate - protokolliert die Begruendung der Entscheidung

Problem
Stell dir vor, ein Worker-Agent fuehrt eine Aufgabe in Produktion aus und hat Zugriff auf Tools.
Er schlaegt eine technisch valide Aktion vor, die gegen Policy verstoesst:
- E-Mail an falsche Zielgruppe
- SQL-Query mit Risiko von Datenaenderung
- Ausgaben ueber Budget
- Zugriff auf sensible Daten ohne erforderlichen Access Scope
Ein technisch moeglicher Schritt ist nicht immer erlaubt oder sicher fuer das Business.
Ohne separate Kontrolle kann das direkt in die Ausfuehrung gehen.
Folgen:
- Vorfaelle in Produktion
- Sicherheits- und Compliance-Verstoesse
- unerwartete finanzielle Verluste
- schwaches Audit und schwierige Postmortem-Analyse
Genau darin liegt das Problem: ein Worker kann eine Aktion vorschlagen, die "technisch funktioniert", aber per Policy unzulaessig ist.
Loesung
Supervisor fuegt eine Policy-Control-Layer zwischen Aktionsvorschlag und Ausfuehrung ein.
Analogie: das ist wie ein technisches Review vor einem Produktions-Release. Der Worker schlaegt einen Schritt vor, und der Supervisor prueft, ob er sicher und zulaessig ist. Erst danach darf die Aktion ausgefuehrt werden.
Schluesselprinzip: zuerst Supervisor-Pruefung und Entscheidung, dann Ausfuehrung.
Der Worker schlaegt eine Aktion vor, und supervisor-policy gibt zurueck:
approvereviseblockescalate
Gesteuerter Prozess:
- Observe: Aktionsvorschlag vom Worker holen
- Evaluate: gegen Policy + Ausfuehrungs-Runtime-State pruefen
- Decide:
approve/revise/block/escalate - Enforce: ausfuehren, zur Ueberarbeitung zurueckgeben oder stoppen
- Log: Entscheidung und Begruendung aufzeichnen
Das bringt:
- geringeres Risiko unsicherer Aktionen vor der Ausfuehrung
- keine Moeglichkeit, Policy zu umgehen
- kontrollierte Eskalation zu einem Menschen
- transparentes Audit von Entscheidungen
Funktioniert gut, wenn:
- Worker keinen direkten Bypass der Execution-Layer hat
- Policy Intent + Runtime-Kontext prueft
- Supervisor-Entscheidungen real erzwungen werden
- High-Risk-Aktionen nicht automatisch freigegeben werden
Das Modell kann "wollen", einen Schritt sofort auszufuehren, aber supervisor-policy bestimmt, ob die Aktion ueberhaupt erlaubt ist.
Wie es funktioniert
Supervisor fuehrt die Business-Aufgabe nicht selbst aus.
Er kontrolliert, ob der naechste Schritt ausgefuehrt werden darf, durch Pruefung von:
- Sicherheit
- Budget
- Zugriffsrechten
- Compliance
- Stop Conditions
Beschreibung des gesamten Ablaufs: Observe → Evaluate → Decide → Enforce
Observe
Supervisor erhaelt Plan oder Aktion vom Worker Agent.
Evaluate
Vergleicht Aktion mit Policies und aktuellem Zustand: Ausgabenlimit, Tool-Typ, Risiko-Level, Datensensitivitaet.
Decide
Gibt genau eine Entscheidung zurueck: approve, revise, block oder escalate.
Enforce
System setzt Entscheidung durch: Aktion ausfuehren, zur Ueberarbeitung zurueckgeben, Ausfuehrung stoppen oder auf Human Approval geben.
Im Code sieht das so aus
proposal = worker.next_action(context)
decision = supervisor.review(
action=proposal,
budget_state=budget_state,
policy=policy,
)
if decision.type == "approve":
result = execute(proposal)
context.append(result)
elif decision.type == "revise":
context.append(f"Supervisor feedback: {decision.reason}")
elif decision.type == "escalate":
wait_for_human_approval(proposal)
else:
stop(reason=decision.reason)
Supervisor ersetzt den Worker Agent nicht. Er fuegt eine Pruefung zwischen Planung und Ausfuehrung ein.
So sieht das waehrend der Ausfuehrung aus
Goal: Kundenrueckerstattung durchfuehren
Worker proposal:
- refund 5000 USD
- send confirmation email
Supervisor:
- policy check: auto-refund nur bis 1000 USD erlaubt
- Entscheidung: escalate, menschliche Bestaetigung erforderlich
Human approval (approve with changes):
- approved_refund_amount: 800 USD
- comment: "Rueckerstattung nur bis 800 USD freigeben"
Ausfuehrung:
- refund 800 USD (Betrag aus menschlicher Entscheidung)
- send confirmation email
Status: erledigt
Vollstaendiges Supervisor-Agent-Beispiel
Wann es passt - und wann nicht
Passt
| Situation | Warum Supervisor passt | |
|---|---|---|
| ✅ | Es gibt riskante oder teure Aktionen | Supervisor prueft Schritt vor Ausfuehrung und reduziert Risiko teurer Fehler. |
| ✅ | Kontrolle von Sicherheits- und Compliance-Policies ist erforderlich | Pattern setzt Zulassungsregeln durch und blockiert Aktionen, die Policies verletzen. |
| ✅ | Budget-, Zugriffs- und Tool-Limits sind wichtig | Supervisor haelt Beschraenkungen zentral und verhindert Umgehung waehrend Ausfuehrung. |
| ✅ | Ein Audit Trail fuer Entscheidungen und Gruende ist erforderlich | Jede Approve-, Block- oder Escalate-Entscheidung kann fuer Audit protokolliert werden. |
Passt nicht
| Situation | Warum Supervisor nicht passt | |
|---|---|---|
| ❌ | Read-only-Aufgabe ohne riskante Schritte | Zusaetzliche Kontrolle aendert Risiko kaum, macht den Flow aber komplexer. |
| ❌ | Kritische Latenz, bei der ein zusaetzliches Gate unzulaessig ist | Pruefung vor jeder Aktion kann unzulaessige Latenz verursachen. |
| ❌ | Die gesamte Sicherheit ist auf Infrastruktur-Ebene hart durchgesetzt | Supervisor dupliziert bereits technisch erzwungene Kontrollen und bringt wenig zusaetzlichen Nutzen. |
Denn Supervisor fuegt einen zusaetzlichen Pruefschritt hinzu und kann Ausfuehrung verlangsamen.
Unterschied Zu Guarded-Policy
| Guarded-Policy | Supervisor | |
|---|---|---|
| Hauptrolle | Filtert Aktionen automatisch nach strikten Regeln | Bewertet die Situation und entscheidet, ob sicher fortgesetzt werden kann |
| Wann es angewendet wird | Vor jeder potenziell riskanten Aktion | An Kontrollpunkten: vor wichtigen Schritten oder finalem Ergebnis |
| Entscheidungstyp | allow / deny / rewrite / escalate | approve / revise / block / escalate |
| Staerke | Stabile, einheitliche Regeln fuer alle Anfragen | Flexibler Check dort, wo Kontext und menschliche Logik noetig sind |
Kurz: Supervisor ist eine Aufsichtsschicht fuer komplexe Entscheidungen.
Guarded-Policy ist eine automatische regelbasierte Barriere.
Wann Supervisor Verwenden (vs Andere Patterns)
Verwende Supervisor, wenn Aufsicht und Policy-Check vor finalem Ergebnis oder riskanter Aktion gebraucht werden.
Kurzer Test:
- wenn du "Policies, Compliance und Risiken pruefen" musst -> Supervisor
- wenn du "nur die Schrittreihenfolge steuern" musst -> Orchestrator Agent
- wenn du "Aktionen vor Ausfuehrung automatisch blockieren/umschreiben" musst -> Guarded-Policy Agent
Vergleich mit anderen Patterns und Beispiele
Schnelluebersicht:
| Wenn die Aufgabe so aussieht... | Verwende |
|---|---|
| Es muss ein einzelner bester Ausfuehrer gewaehlt werden | Routing Agent |
| Es gibt eine Schrittfolge, und die Reihenfolge ist wichtig | Orchestrator Agent |
| Es wird ein Policy-Check vor dem Ergebnis benoetigt | Supervisor Agent |
| Mehrere Agenten muessen zu einer Schlussfolgerung kommen | Multi-Agent Collaboration |
Beispiele:
Routing: "Kunde will eine Rueckerstattung - an Billing schicken, nicht an Sales".
Orchestrator: "Bereite ein Release vor: zuerst Changelog, dann QA, dann Deploy".
Supervisor: "Vor dem Senden einer E-Mail Policies, Compliance und verbotene Versprechen pruefen".
Multi-Agent Collaboration: "Marketing, Legal und Product muessen einen finalen Kampagnentext abstimmen".
Wie man es mit anderen Patterns kombiniert
- Supervisor + ReAct: Supervisor prueft jeden Act-Schritt vor dem Tool-Aufruf.
- Supervisor + Routing: nicht nur die Aktion wird kontrolliert, sondern auch, an wen die Aufgabe geroutet wurde.
- Supervisor + Orchestrator: Policies und Limits gelten fuer jeden parallelen Zweig, nicht nur fuer das Endergebnis.
Kurz gesagt
Supervisor Agent:
- prueft Aktionen vor Ausfuehrung
- wendet Policies und Limits an
- blockiert oder eskaliert riskante Schritte
- reduziert Risiko von Produktionsvorfaellen
Vorteile und Nachteile
Vorteile
kontrolliert Aktionen anderer Agenten
stoppt riskante Schritte vor Ausfuehrung
gleicht Prioritaeten und Ressourcen ab
erhoeht Systemsteuerbarkeit
Nachteile
fuegt Verzoegerung fuer Pruefungen hinzu
klare Eskalationsregeln sind notwendig
kann zum Bottleneck werden
FAQ
Q: Ersetzt Supervisor Infrastruktur-Berechtigungen (RBAC, ACL)?
A: Nein. Das ist zusaetzliche logische Kontrolle. Basis-technische Restriktionen sollten in der Infrastruktur bleiben.
Q: Was tun, wenn Supervisor zu oft nuetzliche Aktionen blockiert?
A: Policies praezisieren: Ausnahmen, Risikostufen und Human-Approval-Regeln fuer graue Szenarien hinzufuegen.
Q: Kann Supervisor ein Single Point of Failure sein?
A: Ja, wenn kein Fallback vorgesehen ist. Deshalb werden meist Timeout, safe default policy und graceful degradation ergaenzt.
Was als Naechstes
Supervisor kontrolliert, dass einzelne Agenten innerhalb von Policy-Grenzen bleiben.
Aber was tun, wenn mehrere Agenten bei einer gemeinsamen Aufgabe zusammenarbeiten muessen?