Pattern Memory-Augmented Agent : Contexte entre les sessions

Construisez des agents qui mémorisent les faits utilisateur et les résultats précédents pour des réponses cohérentes et personnalisées.

Sur cette page

Essence du pattern
Probleme
Solution
Comment ca fonctionne
En code, cela ressemble a ceci
A quoi cela ressemble pendant l'execution
Quand c'est adapte - et quand ca ne l'est pas
Adapte
Non adapte
Difference avec RAG
Quand utiliser Memory-Augmented (vs autres patterns)
Comment combiner avec d'autres patterns
En bref
Avantages et Inconvenients
FAQ
Et ensuite

Essence du pattern

Memory-Augmented Agent est un pattern ou l'agent dispose d'une memory layer separee : il enregistre les faits importants, les recupere si besoin et les utilise dans les etapes ou sessions suivantes.

Quand l'utiliser : quand il faut memoriser des faits entre etapes ou sessions et les reutiliser dans les decisions suivantes.

Au lieu du modele "chaque requete part de zero", l'agent :

capte des faits utiles depuis l'interaction
les stocke dans une memoire structuree
recupere le contexte pertinent avant la reponse
met a jour ou supprime les enregistrements obsoletes

Pattern Memory-Augmented Agent : contexte entre sessions

Probleme

Imagine que tu travailles avec un agent sur plusieurs sessions.

Dans la premiere session, tu fixes des regles :

ecris en ukrainien
reponds de facon concise
applique une exception pour le client Enterprise

Dans la session suivante, l'agent "oublie" cela, et tu dois tout repeter.

Sans memoire geree, chaque nouvelle session ressemble a une premiere session pour l'agent.

Consequences :

perte de coherence dans les reponses
repetitions inutiles pour l'utilisateur
erreurs dues au contexte manquant
valeur plus faible dans les Workflow longs

Voila le probleme : sans memory layer, l'agent n'accumule pas de contexte utile et travaille seulement dans la requete courante.

Solution

Memory-Augmented introduit une memory-policy pour ecriture et retrieval entre sessions.

Analogie : comme une fiche client dans un service. On enregistre uniquement l'important, pas tout le dialogue mot a mot. Ainsi, l'interaction suivante demarre avec le contexte pertinent.

Principe cle : la memoire doit etre selective et pilotee, pas "tout conserver".

L'agent peut proposer quoi memoriser, mais la memory layer decide :

ce qui peut etre ecrit
ce qu'il faut recuperer pour une nouvelle requete
quand un enregistrement devient obsolete et doit etre supprime

Processus pilote :

Capture : extraire les faits significatifs
Store : enregistrer avec metadata (source, timestamp, TTL)
Retrieve : recuperer la memoire pertinente
Apply : l'inclure dans le contexte de reponse
Update/Delete : retirer ce qui est obsolete

Cela apporte :

coherence entre sessions
personnalisation sans repetitions d'instructions
stockage controle des decisions et exceptions
moins de repetitions manuelles pour l'utilisateur

Fonctionne bien si :

seuls les faits significatifs sont conserves
il existe une policy de lecture/ecriture (privacy + scope)
le lifecycle est applique (TTL, update, delete)
le retrieval renvoie des elements pertinents et a jour

Le modele peut "vouloir" tout memoriser, mais memory-policy definit le contenu du contexte long terme.

Comment ca fonctionne

Diagram

La memoire n'est pas egale a la raw chat history complete.

En production, on ne conserve pas tout : seulement les faits utiles avec date, source et policy de cycle de vie.

Description du flow complet : Capture → Store → Retrieve → Apply

Capture
Le systeme extrait les faits de l'interaction en cours : preferences utilisateur, decisions, parametres stables.

Store
Les faits sont ecrits dans le memory store avec metadata : timestamp, confidence, scope, TTL, policy tags.

Retrieve
Avant reponse, le systeme recherche les enregistrements memoire pertinents pour cette requete.

Apply
L'agent integre ces enregistrements dans son contexte de travail et repond en tenant compte de l'experience precedente.

En code, cela ressemble a ceci

PYTHON

facts = extract_memory_facts(user_message)

approved = supervisor.review_memory_write(
    user_id=user_id,
    items=facts,
)

memory.upsert(user_id=user_id, items=approved)

relevant = memory.search(
    user_id=user_id,
    query=goal,
    top_k=5,
)

context = build_context(base_context, memory_items=relevant)
answer = agent.respond(context)

return answer

La memoire doit etre geree : limites de taille, regles de mise a jour, et suppression des faits obsoletes.

A quoi cela ressemble pendant l'execution

TEXT

Goal: personnaliser la reponse avec preferences utilisateur en memoire

Session 1:
User: Ecris les reponses en anglais et de facon concise.
Memory saved:
- language = en (source=session_1)
- response_style = concise (source=session_1)

Session 2:
User: Explique la difference entre SLA et SLO.
Retrieve:
- language = en
- response_style = concise

Agent response:
- en anglais
- en format concis

Exemple complet d'agent Memory-Augmented

PYPython

TSTypeScript · bientôt

Quand c'est adapte - et quand ca ne l'est pas

Adapte

	Situation	Pourquoi Memory est adapte
✅	La personnalisation entre sessions est importante	Memory conserve le contexte utilisateur pertinent et rend le comportement de l'agent coherent.
✅	Il y a des processus longs avec interactions repetees	L'agent reprend depuis l'etat precedent au lieu de recommencer a zero.
✅	Il faut conserver parametres stables et decisions precedentes	Memory reduit les decisions dupliquees et maintient la stabilite des reglages.
✅	Le contexte utilisateur influence la qualite des reponses et actions	L'agent utilise l'historique d'interaction et adapte l'output plus precisement.

Non adapte

	Situation	Pourquoi Memory n'est pas adapte
❌	Taches ponctuelles ou les sessions ne sont pas liees	Le stockage d'etat ajoute du surcout sans benefice pratique.
❌	Une policy de securite stricte interdit de stocker des donnees	Le contour Memory ne peut pas satisfaire les exigences de compliance dans ce modele.
❌	Pas de processus lifecycle pour nettoyage et mise a jour	Sans gestion de retention, la memoire devient vite obsolete et degrade la qualite des decisions.

Car la memory layer ajoute du surcout operationnel : stockage, indexation, retention et controle privacy.

Difference avec RAG

	RAG	Memory-Augmented
Source de contexte	Base de connaissance externe et documents	Interactions precedentes et etat utilisateur
Optimise	Precision factuelle et possibilite de citer	Coherence et personnalisation
Type de donnees	Policies, reference, documentation	Preferences, decisions, historique d'actions
Risque principal	Retrieval faible	Memoire obsolete ou excessive

RAG repond : "que dit la base de connaissance".

Memory-Augmented repond : "qu'est-ce qu'il faut memoriser pour cet utilisateur et ce processus".

Quand utiliser Memory-Augmented (vs autres patterns)

Utilisez Memory-Augmented quand il faut stocker et reutiliser du contexte entre etapes ou sessions.

Test rapide :

si vous devez "memoriser preferences, decisions et etat utilisateur" -> Memory-Augmented
si vous devez "trouver des faits dans des documents externes pour la requete courante" -> RAG Agent

Comparaison avec d'autres patterns et exemples

Aide-memoire rapide :

Si la tache ressemble a ca...	Utilisez
Trouver des connaissances dans des sources externes et former la reponse	RAG Agent
Conserver et reutiliser le contexte utilisateur entre etapes ou sessions	Memory-Augmented Agent

Exemples :

RAG : "Reponds a la question client uniquement via la base interne de policies et montre les sources".

Memory-Augmented : "Retiens que ce client a deja choisi le plan Pro et prends-le en compte dans les prochaines reponses".

Pas sûr qu'il faille déjà une mémoire agent long terme dans ce cas ? Concevoir votre agent →

Comment combiner avec d'autres patterns

Memory + RAG: l'agent combine contexte personnel et sources verifiees pour une reponse a la fois exacte et pertinente.
Memory + ReAct: a chaque etape, l'agent tient compte des decisions precedentes pour eviter de repeter les memes actions.
Memory + Supervisor: Supervisor controle ce qui peut etre ecrit en memoire et ce qui peut en etre extrait.

En bref

Memory-Augmented Agent:

Conserve des faits utiles entre sessions
Recupere la memoire pertinente avant la reponse
Rend le comportement de l'agent coherent
Renforce la personnalisation sans perdre le controle

Avantages et Inconvenients

Avantages

retient le contexte important entre sessions

moins de questions repetitives a l'utilisateur

reponses plus coherentes

meilleure performance sur taches longues

Inconvenients

la memoire doit etre nettoyee et mise a jour regulierement

risque de stocker des donnees inutiles

un contexte obsolete degrade la qualite des reponses

FAQ

Q: Est-ce que memory veut dire que l'agent retient absolument tout ?
A: Non. En production, seuls les faits utiles sont conserves selon des regles de selection, TTL et securite.

Q: Comment eviter de stocker des donnees sensibles ou inutiles ?
A: Utiliser data classification, redaction, field allowlist et policies retention/delete.

Q: Que faire avec une memoire obsolete ou contradictoire ?
A: Ajouter timestamp et confidence, revalider les enregistrements critiques et prioriser les faits les plus recents.

Et ensuite

Memory-Augmented ajoute du contexte long terme a l'agent.

Mais comment verifier que la reponse finale est coherente et sans erreurs evidentes avant envoi a l'utilisateur ?

Pattern Reflection Agent : Contrôle qualité en une passe

Retour

Pattern RAG Agent : Réponses fondées sur des sources

Pattern Reflection Agent : Contrôle qualité en une passe

⏱️ 10 min de lecture • Mis à jour 6 mars 2026Difficulté: ★★★

Suite pratique

Exemples d’implémentation du patron

Passe à l’implémentation avec des projets d’exemple.

Python

Agent Memory-Augmented en Python : Exemple complet

Ouvrir l’exemple

Utilisé par les patterns

Pannes associées

Gouvernance requise

Intégré : contrôle en productionOnceOnly

Ajoutez des garde-fous aux agents tool-calling

Livrez ce pattern avec de la gouvernance :

Budgets (steps / plafonds de coût)
Permissions outils (allowlist / blocklist)
Kill switch & arrêt incident
Idempotence & déduplication
Audit logs & traçabilité

Essayer OnceOnly Docs & exemples

Mention intégrée : OnceOnly est une couche de contrôle pour des systèmes d’agents en prod.

Auteur

Nick — ingénieur qui construit une infrastructure pour des agents IA en production.

Focus : patterns d’agents, modes de défaillance, contrôle du runtime et fiabilité des systèmes.

🔗 GitHub: https://github.com/mykolademyanov

Note éditoriale

Cette documentation est assistée par l’IA, avec une responsabilité éditoriale humaine pour l’exactitude, la clarté et la pertinence en production.

Le contenu s’appuie sur des défaillances réelles, des post-mortems et des incidents opérationnels dans des systèmes d’agents IA déployés.