Agent superviseur : contrôle des actions et des risques

Un agent superviseur valide les actions proposées, applique les policies de sécurité et bloque les étapes dangereuses avant exécution.
Sur cette page
  1. Essence du pattern
  2. Probleme
  3. Solution
  4. Comment ca fonctionne
  5. En code, cela ressemble a ceci
  6. A quoi cela ressemble pendant l'execution
  7. Quand c'est adapte - et quand ca ne l'est pas
  8. Adapte
  9. Non adapte
  10. Difference Avec Guarded-Policy
  11. Quand Utiliser Supervisor (vs Autres Patterns)
  12. Comment combiner avec d'autres patterns
  13. En bref
  14. Avantages et Inconvenients
  15. FAQ
  16. Et ensuite

Essence du pattern

Supervisor Agent est un pattern dans lequel un agent separe controle l'execution : il verifie les actions proposees, applique des regles et decide si on peut continuer.

Quand l'utiliser : quand des actions critiques doivent etre approuvees separement par policy avant de continuer.


Au lieu de faire confiance au worker sans condition, Supervisor :

  • verifie chaque action critique
  • la compare aux policies
  • renvoie une decision : approve, revise, block ou escalate
  • enregistre la raison de la decision dans les logs

Agent Supervisor : controle des actions et des policies

Probleme

Imagine qu'un worker agent execute une tache en production et ait acces aux outils.

Il propose une action techniquement valide qui viole une policy :

  • email a la mauvaise audience
  • SQL query avec risque de modification des donnees
  • depense au-dessus du budget
  • acces a des donnees sensibles sans access scope requis

Une etape techniquement possible n'est pas toujours autorisee ni sure pour le business.

Sans controle separe, cela peut passer directement en execution.

Consequences :

  • incidents en production
  • violations de securite et de compliance
  • pertes financieres imprevues
  • audit faible et postmortem difficile

Voila le probleme : un worker peut proposer une action qui "fonctionne techniquement", mais qui est inacceptable selon policy.

Solution

Supervisor ajoute une policy-control layer entre proposition d'action et execution.

Analogie : c'est comme une revue technique avant un lancement en production. Le worker propose une etape, et le supervisor verifie si elle est sure et autorisee. Seulement apres cela, l'action peut etre executee.

Principe cle : d'abord verification et decision du supervisor, ensuite execution.

Le worker propose une action, et supervisor-policy renvoie :

  • approve
  • revise
  • block
  • escalate

Processus pilote :

  1. Observe : recevoir la proposition d'action du worker
  2. Evaluate : verifier avec policy + execution runtime state
  3. Decide : approve/revise/block/escalate
  4. Enforce : executer, renvoyer pour revision, ou arreter
  5. Log : enregistrer decision et raison

Cela apporte :

  • moins de risque d'actions dangereuses avant execution
  • impossibilite de contourner policy
  • escalade controlee vers un humain
  • audit transparent des decisions

Cela fonctionne bien si :

  • worker n'a pas de bypass direct de la execution layer
  • policy verifie intent + runtime context
  • les decisions du supervisor sont vraiment appliquees
  • les actions high-risk ne sont pas auto-approuvees

Le modele peut "vouloir" executer tout de suite, mais c'est supervisor-policy qui decide si l'action est autorisee.

Comment ca fonctionne

Diagram

Supervisor n'execute pas la tache metier lui-meme.

Il controle si l'etape suivante peut etre executee en verifiant :

  • securite
  • budget
  • permissions
  • compliance
  • stop conditions
Description du flow complet : Observe → Evaluate → Decide → Enforce

Observe
Supervisor recoit un plan ou une action du Worker Agent.

Evaluate
Compare action avec policies et etat courant : limite de depense, type d'outil, niveau de risque, sensibilite des donnees.

Decide
Renvoie une decision : approve, revise, block ou escalate.

Enforce
Le systeme applique la decision : executer l'action, la renvoyer en revision, arreter l'execution, ou envoyer en human approval.

En code, cela ressemble a ceci

PYTHON
proposal = worker.next_action(context)

decision = supervisor.review(
    action=proposal,
    budget_state=budget_state,
    policy=policy,
)

if decision.type == "approve":
    result = execute(proposal)
    context.append(result)
elif decision.type == "revise":
    context.append(f"Supervisor feedback: {decision.reason}")
elif decision.type == "escalate":
    wait_for_human_approval(proposal)
else:
    stop(reason=decision.reason)

Supervisor ne remplace pas Worker Agent. Il ajoute une verification entre planification et execution.

A quoi cela ressemble pendant l'execution

TEXT
Goal: traiter un remboursement client

Worker proposal:
- refund 5000 USD
- send confirmation email

Supervisor:
- policy check: auto-refund autorise seulement jusqu'a 1000 USD
- decision: escalate, confirmation humaine necessaire

Human approval (approve with changes):
- approved_refund_amount: 800 USD
- comment: "J'approuve le remboursement seulement dans la limite de 800 USD"

Execution:
- refund 800 USD (montant issu de la decision humaine)
- send confirmation email

Status: termine

Exemple complet d'agent Supervisor

PYPython
TSTypeScript · bientôt

Quand c'est adapte - et quand ca ne l'est pas

Adapte

SituationPourquoi Supervisor est adapte
Il existe des actions riskees ou couteusesSupervisor verifie l'etape avant execution et reduit le risque d'erreurs couteuses.
Un controle des policies de securite et compliance est necessaireLe pattern applique des regles d'admission et bloque les actions qui violent policy.
Les limites budget, acces et outils sont importantesSupervisor garde les contraintes de facon centralisee et evite le bypass en execution.
Un audit trail des decisions et raisons est necessaireChaque decision approve, block ou escalate peut etre enregistree pour audit.

Non adapte

SituationPourquoi Supervisor n'est pas adapte
Tache read-only sans etapes a risqueLe controle supplementaire change peu le risque, mais complique le flux.
Latence critique ou un gate supplementaire est inacceptableUne verification avant chaque action peut ajouter une latence inacceptable.
Toute la securite est deja strictement forcee au niveau infrastructureSupervisor duplique des controles deja appliques techniquement et apporte peu de valeur additionnelle.

Parce que Supervisor ajoute une etape de verification supplementaire et peut ralentir l'execution.

Difference Avec Guarded-Policy

Guarded-PolicySupervisor
Role principalFiltre automatiquement les actions avec des regles strictesEvalue la situation et decide s'il est sur de continuer
Quand il s'appliqueAvant chaque action potentiellement risqueeAux points de controle : avant les etapes importantes ou le resultat final
Type de decisionsallow / deny / rewrite / escalateapprove / revise / block / escalate
Point fortRegles stables et identiques pour toutes les demandesControle flexible la ou le contexte et la logique humaine sont necessaires

En bref : Supervisor est une couche de supervision pour les decisions complexes.

Guarded-Policy est une barriere automatique basee sur des regles.

Quand Utiliser Supervisor (vs Autres Patterns)

Utilisez Supervisor quand une supervision et un policy-check sont necessaires avant resultat final ou action risquee.

Test rapide :

  • si vous devez "verifier policies, compliance et risques" -> Supervisor
  • si vous devez "seulement gerer l'ordre des etapes" -> Orchestrator Agent
  • si vous devez "bloquer/reecrire automatiquement les actions avant execution" -> Guarded-Policy Agent
Comparaison avec d'autres patterns et exemples

Aide-memoire rapide :

Si la tache ressemble a ca...Utilisez
Il faut choisir un unique meilleur executantRouting Agent
Il y a une sequence d'etapes et l'ordre est importantOrchestrator Agent
Un policy-check est necessaire avant resultatSupervisor Agent
Plusieurs agents doivent converger vers une conclusionMulti-Agent Collaboration

Exemples :

Routing : "Le client demande un remboursement - envoyer a Billing, pas a Sales".

Orchestrator : "Prepare un release : d'abord changelog, puis QA, puis deploy".

Supervisor : "Avant d'envoyer un email, verifier policies, compliance et promesses interdites".

Multi-Agent Collaboration : "Marketing, Legal et Product doivent valider un texte final unique pour une promo".

Comment combiner avec d'autres patterns

  • Supervisor + ReAct: Supervisor verifie chaque etape Act avant appel d'outil.
  • Supervisor + Routing: on controle non seulement l'action, mais aussi vers qui la tache a ete routee.
  • Supervisor + Orchestrator: policies et limites s'appliquent a chaque branche parallele, pas seulement au resultat final.

En bref

En bref

Supervisor Agent:

  • verifie les actions avant execution
  • applique policies et limites
  • bloque ou escalate les etapes a risque
  • reduit le risque d'incidents en production

Avantages et Inconvenients

Avantages

controle les actions des autres agents

stoppe les etapes a risque avant execution

aligne priorites et ressources

ameliore la controlabilite du systeme

Inconvenients

ajoute de la latence pour les verifications

des regles d'escalade claires sont necessaires

peut devenir un goulot d'etranglement

FAQ

Q : Supervisor remplace-t-il les permissions d'infrastructure (RBAC, ACL) ?
A: Non. C'est un controle logique supplementaire. Les restrictions techniques de base doivent rester dans l'infrastructure.

Q : Que faire si Supervisor bloque trop souvent des actions utiles ?
A: Affiner les policies : ajouter exceptions, niveaux de risque et regles de human approval pour scenarios gris.

Q : Supervisor peut-il devenir un single point of failure ?
A: Oui, si aucun fallback n'est prevu. Donc on ajoute en general timeout, safe default policy et mode graceful degradation.

Et ensuite

Supervisor controle que les agents individuels restent dans les limites des policies.

Mais que faire quand plusieurs agents doivent collaborer sur une tache commune ?

⏱️ 11 min de lectureMis à jour Mars, 2026Difficulté: ★★★
Suite pratique

Exemples d’implémentation du patron

Passe à l’implémentation avec des projets d’exemple.

Intégré : contrôle en productionOnceOnly
Ajoutez des garde-fous aux agents tool-calling
Livrez ce pattern avec de la gouvernance :
  • Budgets (steps / plafonds de coût)
  • Permissions outils (allowlist / blocklist)
  • Kill switch & arrêt incident
  • Idempotence & déduplication
  • Audit logs & traçabilité
Mention intégrée : OnceOnly est une couche de contrôle pour des systèmes d’agents en prod.
Auteur

Cette documentation est organisée et maintenue par des ingénieurs qui déploient des agents IA en production.

Le contenu est assisté par l’IA, avec une responsabilité éditoriale humaine quant à l’exactitude, la clarté et la pertinence en production.

Les patterns et recommandations s’appuient sur des post-mortems, des modes de défaillance et des incidents opérationnels dans des systèmes déployés, notamment lors du développement et de l’exploitation d’une infrastructure de gouvernance pour les agents chez OnceOnly.