Patron Code-Execution Agent: ejecucion segura de codigo

Como un agente ejecuta codigo en sandbox para calcular con fiabilidad, validar hipotesis y automatizar tareas con guardrails de produccion.
En esta página
  1. Esencia del patron
  2. Problema
  3. Solucion
  4. Como funciona
  5. En codigo se ve asi
  6. Como se ve durante la ejecucion
  7. Cuando encaja - y cuando no
  8. Encaja
  9. No encaja
  10. Diferencia frente a Guarded-Policy
  11. Cuando usar Code-Execution (vs otros patrones)
  12. Como combinar con otros patrones
  13. Resumen
  14. Ventajas y Desventajas
  15. FAQ
  16. Que sigue

Esencia del patron

Code-Execution Agent es un patron en el que el agente no solo razona en texto, sino que ejecuta codigo generado en un entorno controlado, obtiene un resultado factual y continua con ese resultado.

Cuando usarlo: cuando la respuesta debe calcularse o verificarse ejecutando codigo, y no solo generarse en texto.


El agente:

  • Generate: genera codigo corto para la tarea
  • Run: lo ejecuta en sandbox
  • Observe: obtiene resultado real
  • Explain: devuelve resultado con explicacion

Patron Code-Execution Agent: ejecucion segura de codigo

Problema

Imagina que pides:

"Calcula la conversion promedio de este CSV."

El agente escribe un script y dice: "La conversion promedio es 3.84%".

Pero sin un entorno controlado no ves:

  • que se ejecuto exactamente
  • que archivos se leyeron
  • si hubo intentos de llamadas de red
  • cuantos recursos consumio el codigo

En ejecucion de codigo importa no solo la logica, sino tambien los limites del entorno donde corre.

Ese es el problema: el resultado depende al mismo tiempo del codigo y del entorno de ejecucion, por eso "solo ejecutar" es inseguro y opaco.

Solucion

Code-Execution Agent ejecuta codigo solo a traves de una capa de ejecucion controlada.

Analogia: es como un laboratorio con reglas de seguridad. El experimento solo se permite en una sala aislada y bajo politicas. Esto reduce el riesgo de dañar el entorno o extraer datos de mas.

Principio clave: el modelo puede escribir codigo, pero la ejecucion se permite solo en sandbox y despues de revisar policy.

Restricciones base:

  • sandbox runtime
  • acceso restringido a archivos
  • sin red
  • limites de CPU/RAM/tiempo

Ciclo controlado:

  1. Planificacion: definir el script minimo para la tarea
  2. Generacion: producir codigo
  3. Policy check: validar seguridad y operaciones permitidas
  4. Ejecucion aislada: correr codigo en sandbox
  5. Validacion de resultado: verificar correccion y riesgo del output

Si falla el policy check o la validacion, la ejecucion se detiene o se escala.

Esto protege contra casos donde el agente podria:

  • leer archivos sensibles
  • enviar datos afuera
  • quedar colgado en bucles largos
  • ejecutar operaciones peligrosas

La ejecucion confiable no es "solo correr", es correr de una forma que runtime-policy no pueda saltarse tecnicamente.

Como funciona

Diagram

Elemento clave: la sandbox.

Suele limitar:

  • sistema de archivos: acceso solo al directorio de trabajo
  • red: normalmente desactivada por completo
  • recursos: CPU/RAM/time quotas
  • entorno runtime: bibliotecas y syscalls permitidos
Descripcion completa del flujo: Plan → Generate Code → Policy Check → Execution Layer → Sandbox Run → Validate → Return

Planificacion
El agente define que debe calcularse exactamente y que formato de salida se espera.

Generacion de codigo
El modelo genera codigo minimo para el paso especifico, sin volumen innecesario.

Policy check
El codigo generado pasa por policy-engine: bibliotecas permitidas, tipo de computo y nivel de consumo aceptable.

Capa de ejecucion
El sistema prepara ejecucion controlada: entorno, limites y reglas de acceso.

Sandbox run
El codigo se ejecuta aislado con limites estrictos.

Validacion
El sistema revisa formato de salida, errores, policies de seguridad y conformidad con esquema esperado.

Retorno
El usuario recibe respuesta valida o stop/escalado controlado.

En codigo se ve asi

PYTHON
code = agent.generate_code(goal, constraints={
    "language": "python",
    "no_network": True,
    "max_seconds": 5,
})

exec_result = execution_layer.run_code(
    code=code,
    policy="sandboxed_python",
)

if not exec_result.success:
    return fallback_or_stop(exec_result.error)

validated = validate_output(exec_result.stdout, schema=expected_schema)
if not validated.ok:
    return stop_with_reason(validated.reason)

return format_answer(validated.data)

Regla principal: nunca ejecutar codigo generado fuera de control sandbox y policy.

Como se ve durante la ejecucion

TEXT
Goal: calcular conversion sobre reporte CSV

Generate Code:
- leer sales.csv
- calcular conversion_rate = paid / leads
- mostrar tabla por dia

Sandbox Run:
- timeout: 5s
- memory: 256MB
- network: disabled

Output:
- tabla con 7 filas
- conversion promedio: 3.84%

Ejemplo completo de agente Code-Execution

PYPython
TSTypeScript · pronto

Cuando encaja - y cuando no

Encaja

SituacionPor que Code-Execution encaja
Se necesitan calculos reales, no suposiciones de textoLa ejecucion de codigo da resultados factuales en vez de estimaciones del modelo.
Trabajo con tablas, archivos, formulasAqui hace falta ejecutar pasos de verdad, no solo describirlos.
Importa la reproducibilidad del resultadoCorrer en entorno controlado hace mas facil verificar resultados.
Hay sandbox + policies aplicadas de forma obligatoriaLa infraestructura segura permite ejecutar codigo sin riesgos criticos.

No encaja

SituacionPor que Code-Execution no encaja
Tarea puramente textualEjecutar codigo agrega complejidad sin beneficio.
No hay entorno de ejecucion aisladoSin sandbox no se puede ejecutar codigo generado de forma segura.
El riesgo es mayor que el beneficioEl daño potencial no justifica este enfoque en este caso.

Porque ejecutar codigo agrega requisitos operativos: sandbox, limites de recursos, monitoreo y auditoria de ejecuciones.

Diferencia frente a Guarded-Policy

Guarded-PolicyCode-Execution
Foco principalQue se permite ejecutarComo ejecutar codigo generado de forma segura
Mecanismo clavePolicy gateSandbox runtime + validacion de output
Cuando se activaAntes de la accionDurante y despues de ejecutar codigo
Riesgo sin patronUna accion peligrosa llega a ejecucionResultados de ejecucion inseguros o no confiables

Guarded-Policy decide si se puede actuar. Code-Execution decide como ejecutar la accion de codigo de forma segura y reproducible.

Cuando usar Code-Execution (vs otros patrones)

Usa Code-Execution cuando el agente debe ejecutar codigo, validar resultados e iterar de forma segura.

Test rapido:

  • si necesitas "ejecutar codigo y trabajar con output factual" -> Code-Execution
  • si necesitas "primero solo dividir una tarea grande en subtareas" -> Task Decomposition Agent
Comparacion con otros patrones y ejemplos

Guia rapida:

Si la tarea se ve asi...Usa
Despues de cada paso debes decidir que hacer despuesReAct Agent
Primero debes dividir un objetivo grande en tareas ejecutables pequeñasTask Decomposition Agent
Necesitas ejecutar codigo, validar resultados e iterar con seguridadCode Execution Agent
Necesitas analizar datos y devolver conclusionesData Analysis Agent
Necesitas investigacion multi-fuente con evidencia estructuradaResearch Agent

Ejemplos:

ReAct: "Encuentra causa de caida de API: revisa logs -> mira errores -> ejecuta la siguiente verificacion segun el resultado."

Task Decomposition: "Prepara lanzamiento de nuevo plan: divide en subtareas de contenido, tecnica, QA y soporte."

Code Execution: "Calcula retencion de 12 meses en Python y valida formulas con datos reales."

Data Analysis: "Analiza un CSV de ventas: encuentra tendencias, anomalias y da conclusiones breves."

Research: "Reune datos de 5 competidores desde varias fuentes y arma un resumen comparativo."

Como combinar con otros patrones

  • Code-Execution + Guarded-Policy: antes de correr, el agente revisa codigo con reglas de seguridad y bloquea acciones peligrosas.
  • Code-Execution + Fallback-Recovery: si la ejecucion se cuelga o falla, el agente pasa a un escenario fallback seguro.
  • Code-Execution + Supervisor: ejecuciones riesgosas no se ejecutan automatico; se mandan a aprobacion humana.

Resumen

En resumen

Code-Execution Agent:

  • Genera codigo para una tarea concreta
  • Lo ejecuta en sandbox aislada
  • Valida output antes de responder
  • Mejora precision en tareas de calculo

Ventajas y Desventajas

Ventajas

da resultados mas precisos en calculos

resultado facil de verificar y repetir

se ve que codigo se ejecuto realmente

comodidad para trabajar con archivos y datos

Desventajas

requiere entorno de ejecucion aislado

la respuesta puede ser mas lenta por ejecutar codigo

pueden ocurrir errores en tiempo de ejecucion

FAQ

Q: Se puede ejecutar codigo directo en servidor sin aislamiento?
A: Para produccion: no. Se necesita aislamiento, limites de recursos y control de operaciones permitidas.

Q: Ejecutar codigo garantiza que el resultado sea correcto?
A: No del todo. Hace falta validacion de salida, pruebas de invariantes y checks de policy.

Q: Que hacer si el codigo falla durante ejecucion?
A: Aplicar recuperacion acotada: retry, entorno de ejecucion de respaldo o stop controlado con stop reason.

Que sigue

El enfoque Code-Execution permite al agente ejecutar calculos de forma confiable.

Pero como aplicarlo a analitica completa: limpieza de datos, agregados, graficos y conclusiones?

⏱️ 10 min de lecturaActualizado Mar, 2026Dificultad: ★★★
Continuación práctica

Ejemplos de implementación del patrón

Continúa con la implementación usando proyectos de ejemplo.

Integrado: control en producciónOnceOnly
Guardrails para agentes con tool-calling
Lleva este patrón a producción con gobernanza:
  • Presupuestos (pasos / topes de gasto)
  • Permisos de herramientas (allowlist / blocklist)
  • Kill switch y parada por incidente
  • Idempotencia y dedupe
  • Audit logs y trazabilidad
Mención integrada: OnceOnly es una capa de control para sistemas de agentes en producción.
Autor

Esta documentación está curada y mantenida por ingenieros que despliegan agentes de IA en producción.

El contenido es asistido por IA, con responsabilidad editorial humana sobre la exactitud, la claridad y la relevancia en producción.

Los patrones y las recomendaciones se basan en post-mortems, modos de fallo e incidentes operativos en sistemas desplegados, incluido durante el desarrollo y la operación de infraestructura de gobernanza para agentes en OnceOnly.